Popis: |
Amaç: Bu çalışmada, orijinal simülasyon senaryoları ışığında, farklı korelasyon yapıları, değişken sayıları ve azınlık sınıfı prevalans oranları altında yedi farklı dengeleme algoritması için optimal azınlık-çoğunluk sınıfı dengeleme oranlarının sınıflandırma ve regresyon ağaçları (CART) ile incelenmesi amaçlandı. Gereç ve Yöntem: Azınlık sınıfı prevalans oranları, korelasyon yapıları ve değişken sayıları dikkate alınarak toplum veri setlerinden örneklenen dengesiz veri setleri, rastgele aşırı örnekleme (ROS), sentetik azınlık aşırı örnekleme tekniği (SMOTE), çoğunluk ağırlıklı azınlık aşırı örnekleme tekniği (MWMOTE), adaptif sentetik örnekleme yaklaşımı (ADASYN), rastgele alt örnekleme (RUS), rastgele alt boosting (RUSBoost) ve alt bagging (UB) algoritmaları ile kademeli olarak dengelendi ve her kademede CART yöntemi ile toplum parametreleri tahmin edildi. Bulgular: Tüm simülasyon senaryolarında, dengeleme algoritmalarının, sınıflandırma başarısını artırdığı gözlendi. Bu artışın, dengeleme oranının artmasıyla paralel olduğu ve tüm dengeleme algoritmalarının en yüksek alıcı işlem karakteristiği (ROC) eğrisi altında kalan alan (AUC) değerine genellikle tam denge (50:50) durumunda ulaştığı gözlendi. Ayrıca, yapılan sınıflandırmalarda, en yüksek AUC değerleri, RUSBoost ve UB algoritmaları ile dengelenen veri setlerinde elde edildi. Türetilen toplum veri setlerinden hesaplanan AUC değerleri referans alınarak değerlendirilen optimal azınlık-çoğunluk sınıfı denge oranları, kullanılan dengeleme algoritmalarına bağlı olarak farklılık gösterdi. Bununla birlikte, değişkenler arasındaki korelasyon yapısı, bağımsız değişken sayısı ve azınlık sınıfı prevalans oranları da dengeleme algoritmaları için xii optimal azınlık-çoğunluk sınıfı denge oranlarını etkiledi. Değişkenler arasındaki ilişki düzeyinin ve bağımsız değişken sayısının artışına paralel olarak dengeleme algoritmaları ile dengelenen veri setlerinin sınıflandırılmasından elde edilen AUC değerlerinin toplum veri setlerinden elde edilen AUC değerlerine yakınsama oranı arttı. Sonuç: Sonuç olarak, RUSBoost ve UB algoritmalarının simülasyon senaryolarının çoğunda belirli denge oranlarından sonra parametre değerinden istatistiksel olarak yüksek sonuçlar ürettiği gözlendi. Hem ilişki düzeyindeki hem de bağımsız değişken sayısındaki artış RUSBoost ve UB algoritmalarının parametre değerinden yüksek sonuçlar üretme eğilimini artırdı. ROS, SMOTE, MWMOTE, ADASYN algoritmalarının, simülasyon senaryolarının çoğunda, RUS algoritmasının ise simülasyon senaryolarının hiçbirinde parametre değerinden istatistiksel olarak yüksek sonuçlar üretmediği gözlendi. Objective: In this study, it was aimed to examine the optimal minority-majority class balancing ratios for seven different balancing algorithms by classification and regression trees (CART) under different correlation structures, variable numbers, and minority class prevalence rates in the light of original simulation scenarios. Material and Methods: Imbalanced datasets were sampled from population datasets were derived by considering minority class prevalence rates, correlation structures, and variable numbers. Imbalanced datasets were gradually balanced with random oversampling (ROS), synthetic minority over-sampling technique (SMOTE), majority weighted minority oversampling technique (MWMOTE), adaptive synthetic sampling approach (ADASYN), random undersampling (RUS), random under boosting (RUSBoost), and under bagging (UB) algorithms and classified by CART method at each step. Results: In all simulation scenarios, classification performance gradually increased in data sets that were gradually balanced with balancing algorithms. This increase is in parallel with the increase in the balancing ratio, and all balancing algorithms reached the highest area under the receiver operation characteristic (ROC) curve (AUC) value generally at fully balanced (50:50). In addition, the highest AUC values were obtained in the datasets balanced with the RUSBoost and UB algorithms. Optimal minority-majority class balance ratios, evaluated regarding the AUC values calculated from the derived population datasets, differed depending on the balancing algorithms used. However, the correlation structure between the variables, the number of independent variables, and the minority class prevalence rates also affected the optimal minoritymajority class balance ratios for the balancing algorithms. In parallel with the increase in the level of the relationship between the variables and the number of independent variables, the rate of convergence of the AUC values obtained from the classification of the data sets balanced with the balancing algorithms to the AUC values obtained from the population datasets increased. Conclusion: In conclusion, statistically higher results than the population parameters were obtained when certain balancing ratios were exceeded in the datasets balanced with the RUBoost and UB algorithms in most of the simulation scenarios. The increase in both the level of correlation and the number of independent variables increased the tendency of RUSBoost and UB algorithms to produce results higher than the population parameters. ROS, SMOTE, MWMOTE, ADASYN algorithms produced statistically higher results than population parameters only for some scenarios with four and five independent variables where the correlation between variables was high. In none of the simulation scenarios, the RUS algorithm did not produce statistically higher results than the population parameters. KABUL VE ONAY.......................................................................................................................... i TEŞEKKÜR .................................................................................................................................... ii İÇİNDEKİLER............................................................................................................................... iii SİMGELER VE KISALTMALAR DİZİNİ .................................................................................... v ŞEKİLLER DİZİNİ ...................................................................................................................... viii TABLOLAR DİZİNİ....................................................................................................................... x ÖZET.............................................................................................................................................. xi ABSTRACT ................................................................................................................................. xiii 1. GİRİŞ ....................................................................................................................................... 1 1.1. Tezin Amacı ......................................................................................................................... 4 2. GENEL BİLGİLER.................................................................................................................. 5 2.1. Sınıf Dengesizliği Problemi.................................................................................................. 5 2.2. Veri Dengeleme Algoritmaları ............................................................................................. 5 2.2.1. Rastgele Alt Örnekleme (RUS) ........................................................................................ 6 2.2.2. Rastgele Aşırı Örnekleme (ROS)...................................................................................... 6 2.2.3. Sentetik Azınlık Aşırı Örnekleme Tekniği (SMOTE) ...................................................... 7 2.2.4. Adaptif Sentetik Örnekleme Yaklaşımı (ADASYN)........................................................ 8 2.2.5. Çoğunluk Ağırlıklı Azınlık Aşırı Örnekleme Tekniği (MWMOTE) ............................... 9 2.2.6. Alt Bagging (UB)............................................................................................................ 11 2.2.7. Rastgele Alt Boosting (RUSBoost) ................................................................................ 12 2.3. Sınıflandırma ve Regresyon Ağaçları (CART) .................................................................. 14 2.4. Performans Değerlendirme Ölçütleri.................................................................................. 15 3. GEREÇ VE YÖNTEM .......................................................................................................... 19 3.1. Toplum Veri Setlerinin Türetimi ve Parametrelerin Hesaplanması ................................... 19 3.2. Dengesiz Veri Setlerinin Oluşturulması............................................................................. 21 3.3. Dengesiz Veri Setlerinin Kademeli Olarak Dengelenmesi ................................................ 23 3.4. Sınıflandırma ...................................................................................................................... 26 iv 4. BULGULAR.......................................................................................................................... 27 4.1. Zayıf Düzey Korelasyona İlişkin Bulgular......................................................................... 27 4.2. Orta Düzey Korelasyona İlişkin Bulgular .......................................................................... 43 4.3. Yüksek Düzey Korelasyona İlişkin Bulgular ..................................................................... 59 5. TARTIŞMA ........................................................................................................................... 77 6. SONUÇ VE ÖNERİLER ....................................................................................................... 81 KAYNAKLAR.............................................................................................................................. 84 BİLİMSEL ETİK BEYANI........................................................................................................... 89 ÖZGEÇMİŞ................................................................................................................................... 90 |