Perbandingan Tradisional dan Ensemble Machine Learning dalam Melakukan Klasifikasi Kalimat Ujaran Kebencian
Autor: | Ridwan Ridwan, Riyan Latifahul Hasanah, Eni Heni Hermaliani |
---|---|
Rok vydání: | 2023 |
Zdroj: | Insect (Informatics and Security): Jurnal Teknik Informatika. 8:121-131 |
ISSN: | 2614-431X 2476-9010 |
Popis: | Kalimat Hate Speech merupakan tindakan kejahatan yang diutarakan kepada individu atau kelompok berupa hinaan, fitnah, cacian yang berkaitan dengan ras, agama, budaya, dll. Hate Speech sering disampaikan melalui media sosial seperti Twitter. Untuk membantu mengatasi tersebar luasnya hate speech, penelitian ini bertujuan untuk melakukan analisis pengkategorian kalimat hate speech menggunakan machine learning. Untuk mencapai tujuan tersebut dibutuhkan tahapan pre-processing yaitu remove punctuations, lowercase, tokenizing, filtering dan stemming. Dataset memiliki distribusi data yang tidak seimbang, sehingga metode SMOTE (Synthetic Minority Over-sampling Technique) sangat cocok untuk digunakan, dilanjutkan dengan menerapkan model features engineering yaitu TF-IDF (Term Frequency-Inverse Document Frequency) dan menggunakan algoritma Logistic Regression, Decission Tree, dan Naïve Bayes, kemudian dilakukan pengembangan algoritma machine learning menggunakan metode ensemble, yaitu Adaptive Boosting (Adaboost) dan Random Forest. Algoritma Logistic Regression mendapatkan nilai akurasi terbaik yaitu sebesar 91,40 dan mampu mengungguli algoritma lainnya. |
Databáze: | OpenAIRE |
Externí odkaz: |