Effects of feature selection methods on machine learning based ıntrusion detection system performance
Autor: | Sura EMANET, Gözde KARATAŞ AYDOĞMUŞ, Önder DEMİR |
---|---|
Přispěvatelé: | Emanet Ş., KARATAŞ BAYDOĞMUŞ G., DEMİR Ö., Mühendislik ve Doğa Bilimleri Fakültesi |
Jazyk: | turečtina |
Rok vydání: | 2021 |
Předmět: |
Machine Learning
Feature Filtering and Intrusion Detection Öznitelik Seçimi Engineering Multidisciplinary Mühendislik Ortak Disiplinler Feature Selection Saldırı tespit sistemi makine öğrenmesi öznitelik seçimi öznitelik filtreleme ve saldırı tespiti Makine Öğrenmesi Saldırı Tespit Sistemi Öznitelik Filtreleme ve Saldırı Tespiti Intrusion Detection System |
Zdroj: | Volume: 12, Issue: 5 743-755 Dicle Üniversitesi Mühendislik Fakültesi Mühendislik Dergisi |
ISSN: | 1309-8640 2146-4391 |
Popis: | Artan İnternet tabanlı teknolojilerin kullanımı insanlara ve kurumlara önemli avantajlar sağlamanın yanı sıra bir takım dezavantajları da beraberinde getirmiştir. Bunlardan en önemlisi siber saldırılardır. Siber saldırıların çeşitlenmesi ve artmasıyla, büyük miktarlara ulaşan kritik verilerin silme, değiştirilme, ifşa edilme gibi eylemlere karşı korunması her geçen gün daha zor hale gelmektedir. Bu sebeple bilgi sistemlerinin güvenliğinin sağlanması amaçlı geliştirilen araçlardan biri olan Saldırı Tespit Sistemleri çok önemli yere sahip bir çalışma alanı olmuştur. Bu çalışmada, CSE-CIC-IDS2018 veri kümesi üzerinde literatürde önerilen çeşitli öznitelik seçim yöntemleri ve makine öğrenmesi teknikleri kullanılarak, öznitelik seçiminin Saldırı Tespit Sistemi başarım ve performansı üzerindeki etkisi incelenmiştir. Orijinal veri kümesini temsil edebilecek en iyi alt kümeyi belirlemek için Ki-Kare Testi, Spearman‘ın Sıralama Korelasyon Katsayısı ve Özyinelemeli Öznitelik Eliminasyonu yöntemleri kullanılmıştır. Yeni veri kümeleri Adaptif Yükseltme, Karar Ağacı, Lojistik Regresyon, Çok Katmanlı Algılayıcı, Ekstra Ağaçlar, Pasif-Agresif ve Gradyan Artırma makine öğrenmesi yöntemleri ile sınıflandırılarak performans sonuçlarının karşılaştırmalı bir analizi yapılmıştır. Performansların objektif değerlendirilebilmesi için KFold kullanılmıştır. K-Fold işleminin hesaplama ve zaman yönünden maliyetli olması sebebiyle paralleştirme uygulanarak işlem süresi düşürülmüştür. Elde edilen deneysel sonuçlara göre Ki-Kare Testi ve Spearman’ın Sıralama Korelasyon Katsayısı öznitelik seçim yöntemleri veri boyutunun indirgenmesinden dolayı işlem yükünü azaltarak işlem süresini %45 oranında kısaltmış fakat hata oranını sırasıyla %14,46 ve %10,52 artırmıştır. Ayrica, Özyinelemeli Öznitelik Eliminasyonu yönteminin uygun ayar parametreleri kullanıldığında, işlem süresini %38 oranında kısaltması ile birlikte sistemin hata oranını da %2,95’e kadar düşürdüğü görülmüştür The increasing use of the Internet-based technologies has brought along some disadvantages as well as providing significant advantages to people and institutions. The most important of these disadvantages is cyber-attacks. With the variety and increase of cyber-attacks, it becomes more and more difficult to protect large amounts of critical data against actions such as deletion, modification and disclosure. For this reason, Intrusion Detection Systems, one of the tools developed to ensure the security of information systems, has become a very important study area. In this study, the effect of feature selection on Intrusion Detection System performance and success, was investigated. The study was developed on the CSE-CIC-IDS2018 dataset by using various feature selection methods and machine learning techniques suggested in the literature. Chi-Square Test, Spearman's Ranking Correlation Coefficient and Recursive Feature Elimination methods were used to determine the best subset that could represent the original dataset. The new datasets created with the features determined by each feature selection method were classified using Adaptive Boosting, Decision Tree, Logistic Regression, Multilayer Perceptron, Extra Trees, PassiveAggressive and Gradient Boosting machine learning methods, and a comparative analysis of the obtained performance results was made. K-Fold was used to evaluate the performances objectively. Since the KFold process is costly in terms of computation and time, the processing time is reduced by applying parallelization. According to the experimental results obtained, Chi-Square Test and Spearman's Ranking Correlation Coefficient feature selection methods reduced the processing load due to the reduction of the data size and shortened the processing time by 45%, but increased the error rate by 14.46% and 10.52% respectively. On the other hand, it has been observed that the Recursive Feature Elimination method reduces the processing time by 38% and the error rate of the system up to 2.95% when appropriate setting parameters are used. |
Databáze: | OpenAIRE |
Externí odkaz: |