Popis: |
Günümüzde SMS (Kısa Mesaj Servisi) yoğun kullanılmasa da halen cep telefonu kullanıcılarına ulaşmanın en hızlı ve düşük maliyetli yollarından birisidir. Bu durum; reklam, bilgilendirme, promosyon vb. ürün tanıtımı yapmak isteyen kurumları, kısa mesaj hizmetini kullanmaya yönlendirmektedir. Fakat SMS kullanıcılarının izni olmadan atılan mesajlar ciddi sorun teşkil etmektedir. Bu çalışmada, istenmeyen mesajları filtrelemek için geleneksel sınıflama algoritmalarının yanı sıra makine öğrenmesi ve derin öğrenme metotları da kullanılarak içerik tabanlı sınıflandırma yapılmış ve sonuçlar karşılaştırılmıştır. İngilizce ve Türkçe olarak iki ayrı veri seti kullanılmıştır. İngilizce veri setinde Word2Vec derin öğrenme aracı yardımıyla sınıflandırmada kullanılacak model oluşturulmuştur. Oluşturulan bu model sayesinde mesajların Spam ve Ham kelimelerine olan uzaklıkları hesaplanarak iki yeni öznitelik ortaya çıkarılmış ve bu iki yeni öznitelik göz önünde bulundurularak sınıflandırma algoritmalarının performansları karşılaştırılmıştır. Oluşturulan Türkçe veri setinde ise 5 farklı yapısal öznitelik, Word2Vec ile bulunan 2 yeni öznitelik ve her bir mesajın kelime indeks değerleri ile oluşturulan 45 değerden oluşan öznitelik ile beraber toplam 52 öznitelik matrisi ile geleneksel sınıflandırma algoritmaları yanı sıra derin öğrenme algoritmaları karşılaştırılmıştır. İngilizce veri setinde Word2Vec öznitelikleri ve Random Forest (Rasgele Orman) yöntemiyle, %99.64 doğru sınıflandırma oranı ve Türkçe veri setinde ise 52 adet öznitelik kullanılarak oluşturulan CNN (Convolutional Neural Network) yöntemi %99.86 doğru sınıflandırma oranı ile en başarılı algoritmalar olmuşlardır. Although SMS (Short Message Service) is not used extensively today, it is still one of the fastest and cost effective ways to reach mobile phone users. This situation, directs institutions that want to promote product with advertising, information, promotion, etc. to using the short message service. However, messages sent without the permission of SMS users constitute a serious problem.In this study, in order to filter spam messages, content based classification was made by using machine learning and deep learning methods besides traditional classification algorithms and the results were compared. Two separate data sets were used in English and Turkish. In the English data set, a model to be used for classification was created with the help of Word2Vec library. With the help of this model, the distance between the messages `Spam` and `Ham` is calculated and two new features are and the performance of classification algorithms were compared considering these two new features. In the Turkish data set, traditional classification algorithms as well as deep learning algorithms are compared with 5 different structural attributes, 2 new attributes found with Word2Vec, and 45 attributes created with word index values of each message, total 52 attribute matrix. In the English data set, the correct classification rate of 99.64% was obtained by using Word2Vec attributes and Random Forest method, and in the Turkish data set, the Convolutional Neural Network (CNN) formed by using 52 features obtained 99.86% accurate classification rate and they were found the most successful algorithms. 92 |