Implementasi Algoritma Synthetic Minority Over-Sampling Technique untuk Menangani Ketidakseimbangan Kelas pada Dataset Klasifikasi

Autor: Mulia Sulistiyono, Yoga Pristyanto, Sumarni Adi, Gagah Gumelar
Jazyk: indonéština
Rok vydání: 2021
Předmět:
Zdroj: Sistemasi: Jurnal Sistem Informasi, Vol 10, Iss 2, Pp 445-459 (2021)
Druh dokumentu: article
ISSN: 2302-8149
2540-9719
DOI: 10.32520/stmsi.v10i2.1303
Popis: Abstrak Pada penelitian ini dilakukan penangganan ketidakseimbangan kelas terhadap kelas minoritas menggunakan teknik resampling yaitu oversampling. Algoritma oversampling yang digunakan adalah Synthetic Minority Over-sampling Technique (SMOTE). Hasil dari penelitian ini dibandingkan dengan hasil klasifikasi tanpa resampling. Uji evaluasi yang digunakan ialah akurasi, Geometric Mean (g-mean), dan Confussion Matrix (CM). Penanganan distribusi kelas yang tidak seimbang pada dataset menggunakan algoritma SMOTE dapat meningkatkan nilai akurasi maupun g-mean pada algoritma Naïve Bayes, SVM, KNN dan Decision Tree. Hal tersebut menunjukkan bahwa proses penanganan terhadap distribusi kelas yang tidak seimbang pada tahap pra-pemrosesan data memberikan pengaruh terhadap nilai akurasi maupun g-mean algoritma Naïve Bayes, SVM, KNN dan Decision Tree. Pada scenario percobaan yang telah dilakukan algoritma Naïve Bayes memiliki akurasi paling baik 96,43 %, SVM dengan 99,02 %, KNN dengan 97,29 % dan Decision Tree dengan nilai 97,29 % pada dataset ecoli 15,8 setelah dilakukan SMOTE dengan 10 fold cross validation. Sedangkan memiliki nilai G-mean paling baik 96,42 % untuk algoritma Naïve Bayes, SVM dengan 99,37 %, KNN dengan 99,53 % dan Decision Tree dengan nilai 96,29 % pada dataset ecoli 15,8 setelah dilakukan SMOTE dengan 10 fold cross validation. Kata Kunci : Data Mining, Klasifikasi, Imbalance Ratio (IR), Oversampling, Synthetic Minority Over-sampling Technique (SMOTE) Abstract In this research, the subscriber of class imbalance to the minority class was carried out using a resampling technique, namely oversampling. The oversampling algorithm used is Synthetic Minority Over-sampling Technique (SMOTE). The results of this study were compared with the results of the classification without resampling. The evaluation tests used are accuracy, Geometric Mean (g-mean), and Confusion Matrix (CM). Handling the unbalanced class distribution on the dataset using the SMOTE algorithm can increase the accuracy and g-mean values of the Naïve Bayes, SVM, KNN and Decision Tree algorithms. This shows that the handling process of the unbalanced class distribution at the pre-processing stage has an effect on the accuracy and g-mean values of the Naïve Bayes, SVM, KNN and Decision Tree algorithms. In the experimental scenario that has been carried out the Naïve Bayes algorithm has the best accuracy of 96.43%, SVM with 99.02%, KNN with 97.29% and Decision Tree with a value of 97.29% on the ecoli dataset of 15.8 after SMOTE with 10 fold cross validation. Meanwhile, it has the best G-mean value of 96.42% for the Naïve Bayes algorithm, SVM with 99.37%, KNN with 99.53% and Decision Tree with a value of 96.29% in the ecoli dataset of 15.8 after SMOTE with 10 fold cross validation. Keywords: Data Mining, Classification, Imbalance Ratio (IR), Oversampling, Synthetic Minority Over-sampling Technique (SMOTE)
Databáze: Directory of Open Access Journals