Popis: |
Gelişen bilgi teknolojileri ile günümüzde veri miktarı hızla büyümektedir. Veri madenciliğin amacı, bu verilerden anlamlı bilgi çıkarmaktır. Veri miktarının büyük ve çok boyutlu olması, hesaplama maliyetlerini artırmakla beraber verilerden anlamlı bilgi çıkartılmasını zorlaştırmaktadır. Öznitelik seçiminin amacı bilgi kaybının asgari düzeyde tutarak verilerin çok boyutluluğunu azaltmaktadır. Literatürde, öznitelik seçimi için filtre, sarmalayıcı, gömülü ve hibrit yöntemler başlıkları altında farklı yaklaşımlar önerilmiştir. Bu tez çalışmasında, karınca koloni algoritması kullanılarak hibrit bir yaklaşım önerilmiştir. Hibrit yöntemler, iki adımdan oluşmaktadır. Önerilen yöntemin ilk adımında karınca koloni algoritması ile denetimsiz öğrenme şeklinde öznitelik seçimi yapılmıştır. İkinci adımında k en yakın komşuluk ve destek vektör makineleri sınıflandırma yöntemleri kullanılarak sınıflandırma modelleri oluşturulmuştur. Elde edilen sonuçlar, literatürde karınca koloni algoritması kullanan bir çalışma ile karşılaştırılmış olup, ortak kullanılan veri setlerinin yarısında daha iyi sonuçlara ulaşılmıştır. Bu sonuçlar, önerilen yöntemin etkinliğini doğrulanmış sonrasında daha yüksek doğruluk oranları elde etmek için hangi özniteliklerin kullanılması gerektiğine karar verebilmek amacıyla 10 kat çapraz doğrulama ile farklı sınıflandırıcılar kullanılmıştır. İlaveten, bir adet özniteliğin bile varlığının ve yokluğunun sonuçları nasıl etkilediğini göstermek için analizler yapılmış, öznitelik seçiminin önemi vurgulanmıştır. Son olarak da farklı sınıflandırıcı ve eğitim/test yapılarında veri setlerinin doğruluk oranı dışında hassasiyet ve gerçek pozitif değerler oranından hesaplanan F-puanının nasıl değiştiğine dair analizler yapılarak sonuçlar yorumlanmıştır. Nowadays with the developing information technologies, the amount of data is growing rapidly. The purpose of data mining is to extract meaningful information from these data. The fact that the amount of data is large and multidimensional increases the computational costs and makes it difficult to extract meaningful information from the data. The purpose of feature selection is to reduce the multidimensionality of the data by keeping information loss to a minimum. In the literature, different approaches have been proposed for feature selection under the headings of filter, wrapper, embedded and hybrid methods. In this thesis, a hybrid approach is proposed using the ant colony algorithm. Hybrid methods consist of two steps. In the first step of the proposed method, feature selection was made in unsupervised learning with the ant colony algorithm. In the second step, classification models are created by using k nearest neighbor and support vector machine classification methods. The results obtained were compared with a study using the ant colony algorithm in the literature. Better results were achieved in half of the commonly used datasets. According to these results, the effectiveness of the proposed method was verified, and then different classifiers were used with 10-fold cross validation in order to decide which features should be used to achieve higher accuracy rates. In addition, analyzes were made to show how the presence and absence of even one feature affected the results, and the importance of feature selection was emphasized. Finally, analyzes were made on how the F-score calculated from precision and true positive values, apart from the accuracy rate of the data sets, changed in different classifier and training/test structures, and the results were interpreted. |