Algoritme Logistic Regression untuk Mendeteksi Ujaran Kebencian dan Bahasa Kasar Multilabel pada Twitter Berbahasa Indonesia
Autor: | Ayu Fransiska, Surya Agustian, Fitri Insani, Muhammad Fikry, Pizaini Pizaini |
---|---|
Rok vydání: | 2022 |
Předmět: | |
Zdroj: | Jurnal Nasional Komputasi dan Teknologi Informasi (JNKTI). 5:629-633 |
ISSN: | 2621-3052 2620-8342 |
Popis: | Ujaran kebencian semakin meningkat bersamaan dengan banyaknya pengguna media sosial. Twitter merupakan salah satu media sosial yang membantu penyeberan ujaran ujaran melalui fitur twit-nya yang dilakukan berulang-ulang. Penelitian ini dilakukan untuk mengklasifikasi apakah sebuah twit mengandung ujaran kebencian atau bahasa kasar, dan jika terdeteksi mengandung ujaran kebencian maka akan diukur tingkatannya. Dataset yang digunakan diambil dari twitter sebanyak 13.126 twit asli. Klasifikasi menggunakan Algoritma logistic Regression dan fitur teks word embedding. Dilakukan beberapa kali percobaan untuk mendapatkan model terbaik agar pengujian didapatkan secara optimal. Rata-rata akurasi yang dari ketiga kelas sebesar 75,59%, untuk kelas hate speech 75,86%,kelas abusive 80,05%, kelas level 70,86% dengan komposisi 90:10.Kata kunci: Klasifikasi, Logistic Regression, Ujaran Kebencian, Twitter. Abstract - Hate speech is increasing along with the number of social media users. Twitter is one of the social media that helps spread utterances through its repeated tweet features. This study was conducted to classify whether a tweet contains hate speech or abusive language, and if it is detected to contain hate speech, the level will be measured. The dataset used was taken from twitter as many as 13,126 original tweets. Classification using Logistic Regression Algorithm and word embedding text feature. Several experiments were carried out to get the best model so that the test was obtained optimally. The average accuracy of the three classes is 75.59%, for the hate speech class is 75.86%, the abusive class is 80.05%, the level class is 70.86% with a composition of 90:10.Keyword : Classification, Logistic Regression, Hate Speech, Twitter. |
Databáze: | OpenAIRE |
Externí odkaz: |