Comparing The Effect of Under-Sampling and Over-Sampling on Traditional Machine Learning Algorithms for Epileptic Seizure Detection
Autor: | AKYOL, Kemal, ATİLA, ÜMİT |
---|---|
Jazyk: | turečtina |
Rok vydání: | 2020 |
Předmět: | |
Zdroj: | Volume: 8, Issue: 2 279-285 Academic Platform-Journal of Engineering and Science |
ISSN: | 2147-4575 |
Popis: | Epilepsy disease, a neurological disorder that causesrecurrent and sudden crises, occurs at unforeseen times. This study presentsthe classification of electroencephalogram signals for epileptic seizureprediction. The performances of the machine learning algorithms are evaluatedon the dataset extracted from electroencephalogram signals. The datasetconsists of 500 instances which have 4097 data points for 23.5 seconds. Sincethe dataset unbalanced, Random Under Sampling and Random Over Sampling methodsare performed on this dataset. Therefore, this study is conducted on threedatasets. Each dataset is split to 60% train - 40% test, 70% train - 30% testand 80% train - 20% test within the three scenarios. The performances ofDiagonal Linear Discriminant Analysis, Linear Discriminant Analysis, LogisticRegression and Random Forest machine learning algorithms on these datasets areassessed, and discussed. The overall results show that Random Forest is thesuperior algorithm for all datasets in terms of accuracy, sensitivity and specificitymetrics. Tekrarlayanve ani krizlere neden olan nörolojik bir hastalık olan epilepsy hastalığıöngörülemeyen zamanlarda ortaya çıkar. Bu çalışma, epileptik nöbet tahmini içinelektroensefalogram sinyallerinin sınıflandırılmasını sunmaktadır. Makineöğrenme algoritmalarının performansı, elektroensefalogram sinyallerinden eldeedilen veriseti üzerinde değerlendirilmiştir. Veriseti, 23.5 saniye boyunca4097 veri noktasına sahip 500 örnek içermektedir. Veriseti dengesiz olduğuiçin, bu veri setinde Rastgele Alt Örnekleme ve Rastgele Üst Örneklemeyöntemleri uygulanmıştır. Bu nedenle bu çalışma üç veri seti üzerindeyürütülmüştür. Her veri seti üç senaryo çerçevesinde % 60 eğitim - % 40 test, %70 eğitim - % 30 test ve % 80 eğitim - % 20 test verileri olarak ayrılmıştır. Buverisetleri üzerinde Çapraz Doğrusal Ayırt Edici Analiz, Doğrusal Ayırt EdiciAnaliz, Lojistik Regresyon ve Rastgele Orman makine öğrenmesi algoritmalarınperformansları değerlendirilmiş ve tartışılmıştır. Genel sonuçlar, tümverisetleri için Random Forest algoritmasının doğruluk, hassasiyet ve özgüllük metrikleriaçısından üstün olduğunu göstermiştir. |
Databáze: | OpenAIRE |
Externí odkaz: |