Detection of Turkish Spam Emails with Machine Learning Algorithms Using Different Feature Selection Methods
Autor: | ERYILMAZ, Ersin Enes, ŞAHİN, Durmuş Özkan, KILIÇ, Erdal |
---|---|
Jazyk: | turečtina |
Rok vydání: | 2020 |
Předmět: |
Engineering
Mühendislik e-mail classification feature extraction feature selection spam email spam filtering machine learning Turkish e-mail classification Turkish spam filtering text classification e-posta sınıflandırma öznitelik çıkarımı özellik seçimi istenmeyen e-posta spam filtreleme makine öğrenmesi Türkçe e-posta sınıflandırma Türkçe spam filtreleme metin sınıflandırma |
Zdroj: | Volume: 13, Issue: 2 57-77 Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi |
ISSN: | 1305-8991 2618-5997 |
Popis: | Elektronik postalar, kullanımının kolaylığı, maliyetlerinin ucuz olmasından dolayı propaganda, reklam, oltalama yapmak isteyen kişi veya topluluklar tarafından etkin bir biçimde kullanılmaktadır. Amaçlarını gerçekleştirmek isteyen kişi veya topluluklar hiç tanımadıkları e-posta hesaplarına gereksiz ve yaramaz postalar gönderirler. Bu postalar internet kullanıcılarına maddi ve manevi ciddi zararlar vermekte ayrıca internet trafiğini de meşgul etmektedirler. Yaramaz e-postalar alıcıya rızası dışında gönderilen ve genellikle kötü niyetli veya tanıtım amaçlı olan kişilerin başvurduğu bir yöntemdir. Bu çalışmada iki farklı Türkçe e-posta veri kümesi üzerinde yedi farklı makine öğrenmesi algoritması kullanılarak yaramaz e-postalar tespit edilmeye çalışılmıştır. Bu algoritmaları kullanmadan önce veri kümesi üzerinde ön işlem adımları gerçekleştirilmiştir. Daha sonrasında ise öznitelik çıkarımı ve öznitelik seçimi yapılmıştır. Öznitelik seçimleri sonrasında özellik vektörü oluşturarak makinenin anlayacağı formatta değerler elde edilmiştir. Özellik vektörü makine öğrenmesi algoritmaları ile test edilerek yaramaz e-posta filtreleme işlemiyle elde edilen başarım sonuçları değerlendirilmiştir. Metin sınıflandırma çalışmalarında sıkça kullanılan filtreleme tabanlı Ki-kare (CHI), Bilgi Kazancı (IG), Doküman Frekansı Eşikleme (DF), Odds Oranı (OR) ve ACC öznitelik seçme yöntemleri kullanılmaktadır. İki Türkçe e-posta veri kümesi ile CHI, IG, ACC, OR, DF öznitelik seçme yöntemlerinin çeşitli makine öğrenmesi sınıflandırma algoritmaları üzerinde verdiği sonuçlar incelendiğinde en başarılı sonuç Ki-Kare öznitelik seçimi ile görülmüştür. “TurkishEmail” veri kümesi ile Destek Vektör Makinesi tabanlı SMO algoritması ve CHI öznitelik seçimi ile 0,985 F-ölçütü başarım sonucu elde edilmiştir. “TRHamSpamEmailv1.0” veri kümesi ile CHI öznitelik seçim yöntemi Rastgele Orman (RF) ve Naive Bayes (NB) algoritması ile 0,748 F-ölçütü başarıma ulaşmıştır. Herhangi bir öznitelik seçimi yapılmadan tüm özniteliklerin kullanılması ile elde edilen sınıflandırma başarıları da verilmiştir. Öznitelik seçimi yapılmadan “TurkishEmail” veri kümesi üzerinde RF algoritması ile başarım sonucu 0,514 F-ölçütü, “TRHamSpamEmailv1.0” veri kümesi üzerinde RF algoritması ile başarım sonucu 0,535 F-ölçütü olarak elde edilmiştir. Electronic mails are used effectively by people or communities who want to make propaganda, advertising, phishing because of its ease of use and low cost. People or communities who want to achieve their goals send junk and spam emails to e-mail accounts they do not know. These mails cause serious material and moral damages to internet users and also engage internet traffic. Spam e-mails are a method that is sent to the recipient without their consent and are often used by malicious or promotional people. In this study, it was tried to detect spam e-mails by using seven different machine learning algorithms on two different Turkish e-mail datasets. Before using these algorithms, pre-processing steps were performed on the datasets. Afterward, feature extraction and feature selection were made. After the feature selections, the values were obtained in a format that the machine can understand by creating the feature vector. The performance results of the spam filtering process were evaluated by testing the feature vector with machine learning algorithms. Which are frequently used in text classification studies, filtering-based Chi-square (CHI), Information Gain (IG), Document Frequency Threshold (DF), Odds Ratio (OR), and ACC feature selection methods are used. When examining the results of two Turkish e-mail datasets and CHI, IG, ACC, OR, DF feature selection methods on different machine learning classification algorithms, the most successful result was seen with Chi-Square feature selection. With the “TurkishEmail” dataset, the SMO algorithm based on Support Vector Machine, and CHI feature selection, 0,985 F-measure performance result was obtained. With the “TRHamSpamEmailv1.0” dataset, the CHI feature selection method achieved a 0,748 F-measure with Random Forest (RF) and Naive Bayes (NB) algorithm. Classification successes obtained by using all features without any feature selection are also given. The performance result was obtained as a 0,514 F measure with the RF algorithm on the “TurkishEmail” dataset without the feature selection and as a 0,535 F-measure on the “TRHamSpamEmailv1.0” dataset with the RF algorithm. |
Databáze: | OpenAIRE |
Externí odkaz: |