Perbandingan Tradisional dan Ensemble Machine Learning dalam Melakukan Klasifikasi Kalimat Ujaran Kebencian

Autor: Ridwan Ridwan, Riyan Latifahul Hasanah, Eni Heni Hermaliani
Rok vydání: 2023
Zdroj: Insect (Informatics and Security): Jurnal Teknik Informatika. 8:121-131
ISSN: 2614-431X
2476-9010
Popis: Kalimat Hate Speech merupakan tindakan kejahatan yang diutarakan kepada individu atau kelompok berupa hinaan, fitnah, cacian yang berkaitan dengan ras, agama, budaya, dll. Hate Speech sering disampaikan melalui media sosial seperti Twitter. Untuk membantu mengatasi tersebar luasnya hate speech, penelitian ini bertujuan untuk melakukan analisis pengkategorian kalimat hate speech menggunakan machine learning. Untuk mencapai tujuan tersebut dibutuhkan tahapan pre-processing yaitu remove punctuations, lowercase, tokenizing, filtering dan stemming. Dataset memiliki distribusi data yang tidak seimbang, sehingga metode SMOTE (Synthetic Minority Over-sampling Technique) sangat cocok untuk digunakan, dilanjutkan dengan menerapkan model features engineering yaitu TF-IDF (Term Frequency-Inverse Document Frequency) dan menggunakan algoritma Logistic Regression, Decission Tree, dan Naïve Bayes, kemudian dilakukan pengembangan algoritma machine learning menggunakan metode ensemble, yaitu Adaptive Boosting (Adaboost) dan Random Forest. Algoritma Logistic Regression mendapatkan nilai akurasi terbaik yaitu sebesar 91,40 dan mampu mengungguli algoritma lainnya.
Databáze: OpenAIRE