Dete??o de e-mails phishing aplicando machine learning ao conte?do

Autor: Saraiva, Marco Ant?nio Carvalhosa
Přispěvatelé: Magalh?es, Jo?o, Malta, Silvestre
Jazyk: portugalština
Rok vydání: 2022
Předmět:
Popis: Mestrado em Ciberseguran?a na Escola Superior de Tecnologia e Gest?o do Instituto Polit?cnico de Viana do Castelo A engenharia social ? um conceito no qual ? aplicado a manipula??o psicol?gica para levar a v?tima a executar a??es em prol do ator malicioso. Uma das formas mais comuns de praticar atos de engenharia social ? o phishing. No mundo cibern?tico, o phishing ? usado para manipular os utilizadores para a pr?tica de extors?o e roubo de dados sens?veis. Esta pr?tica ? cada vez mais usada, o que torna preocupante e alarmante a forma de como ? poss?vel ser alvo deste ataque. Relat?rios na ?rea revelam que os utilizadores est?o constantemente a ser alvo de e-mails que fingem ser leg?timos, mas que na verdade est?o a ser v?timas de um ataque phishing. O n?mero de sites e de campanhas de e-mail de phishing continua a crescer ano ap?s ano, sendo que, e a t?tulo de exemplo, no ano de 2021, os ataques phishing cresceram 200% devido ao aproveitamento da pandemia Covid-19 com campanhas de vacinas e tratamento para o v?rus. Existe uma grande preocupa??o da comunidade acad?mica e da ind?stria em mitigar o problema por?m os desafios s?o muitos. Tal deve-se em certa medida ao fato de que parte da solu??o passa pelo ser humano, desenvolvendo a capacidade do mesmo ter consci?ncia e tomar decis?es corretas para evitar que o ataque seja bem-sucedido. Endere?ar um problema como o do phishing requer a??es ao n?vel pessoas, procedimental e tecnol?gico (PPT). O lado humano tem sido alvo de constantes a??es de treino e consciencializa??o, mas mesmo assim o fen?meno n?o para de crescer. Neste trabalho propomos uma solu??o tecnol?gica para refor?ar a capacidade de mitigar ataques de phishing, ou seja, criar uma linha de defesa para que o utilizador final n?o tenha de lidar com e-mails phishing no dia a dia, de forma a evitar o erro humano e assim criar poss?veis estragos e preju?zos. A proposta apresentada envolve a cria??o de um dataset a partir de e-mails previamente classificados como sendo de phishing e n?o phishing. Para a cria??o do dataset foram considerados aspetos lingu?sticos do pr?prio e-mail. Para tal foi aplicada uma t?cnica de extra??o de informa??o automatizada, denominada de Named-entity Recognition (NER). Esta t?cnica retira do corpo do e-mail caracter?sticas que formam o conjunto de dados. O conjunto de dados resultado foi analisado, tratado e submetido a algoritmos de ML, mais propriamente a algoritmos de classifica??o A an?lise de resultados permite concluir que, atrav?s deste m?todo ? poss?vel determinar se um e-mail ? de phishing e ou com uma taxa de acerto de 91.13%. Foi ainda poss?vel concluir que a escolha das features para a fase de treino dos modelos de ML tem um papel preponderante para maximizar a taxa de acerto. Salienta-se que a proposta aqui apresentada para determinar se um e-mail ? de phishing ou n?o poder? de forma simples ser integrada com outras solu??es, melhorando assim a capacidade de detetar e evitar este tipo de ataques. Social engineering is a concept in which psychological manipulation is applied to get the victim to perform actions on behalf of the malicious actor. One of the most common forms of social engineering is phishing. In the cyber world, phishing is used to manipulate users into extortion and theft of sensitive data. This practice is increasingly used, which makes it worrying and alarming how it is possible to be the target of this attack. Reports in the area reveal that users are constantly being targeted by e-mails that pretend to be legitimate, but are actually victims of a phishing attack. The number of phishing websites and e-mail campaigns continues to grow year after year, and in 2021, phishing attacks grew by 200% due to to take advantage of the Covid-19 pandemic with campaigns for vaccines and treatment for the virus. There is great concern from the academic community and the industry to mitigate the problem, but the challenges are many. To a certain extent, this is due to the fact that part of the solution involves human beings, developing their ability to be aware and make correct decisions to prevent the attack from being successful. Addressing a problem like phishing requires people, procedural, and technology (PPT) action. The human side has been the target of constant training and awareness actions, but even so the phenomenon continues to grow. In this work we propose a technological solution to reinforce the ability to mitigate phishing attacks, that is, to create a line of defense so that the end user does not have to deal with e-mails phishing on a daily basis, in order to avoid human error and create possible damage and losses.. The proposal presented involves the creation of a dataset from e-mails previously classified as phishing and not phishing. To create the dataset, linguistic aspects of the e-mail itself were considered. For this, an automated information extraction technique, called Named-entity Recognition (NER) was applied. This technique removes the characteristics that form the data set from the body of the e-mail. The resulting dataset was analyzed, treated and submitted to Machine Learning (ML) algorithms, more specifically to classification algorithms. The analysis of results allows us to conclude that, through this method, it is possible to determine if an e-mail is from phishing and or with a hit rate of 91.13%. It was also possible to conclude that the choice of features for the training phase of ML models has a preponderant role in maximizing the hit rate. It should be noted that the proposal presented here to determine whether an e-mail is from phishing or not can simply be integrated with other solutions, thus improving the ability to detect and prevent this type of attack.
Databáze: OpenAIRE