Development And Research Of Isolating Forest Algorithms For Anomaly Detection In Transactional Data

Jazyk: ruština
Rok vydání: 2022
Předmět:
DOI: 10.18720/spbpu/3/2023/vr/vr23-529
Popis: Предметом исследования является модификация существующего алгоритма изолирующего леса (далее — ИЛ), а целью – увеличение эффективности обна­ ружения аномалий алгоримом изолирующего леса путем его модификации. В работе применялись методы математической статистики, машинного обучения и объектно-ориентированного программирования. Был исследован алгоритм ИЛ и его модификации: расширенный ИЛ, ИЛ сейсмической активности, обобщенный ИЛ. Также была предложена и изучена собственная модификация ИЛ – весовой изолирующий лес. Реализация алгоритмов выполнялась на языке С++ 20 без использования ÑÑ‚Ð¾Ñ€Ð¾Ð½Ð½Ð¸Ñ Ð±Ð¸Ð±Ð»Ð¸Ð¾Ñ‚ÐµÐº. Набор Ð´Ð°Ð½Ð½Ñ‹Ñ Ð´Ð»Ñ тестирования содержал 16 млн транзакций, собранным за примерно 5 месяцев работы. Разработанная и реализованная модель весового изолирующего леса в Ñ Ð¾Ð´Ðµ тестирования обна­ ружения аномалий на Ð´ÐµÐ¿ÐµÑ€ÑÐ¾Ð½Ð°Ð»Ð¸Ð·Ð¸Ñ€Ð¾Ð²Ð°Ð½Ð½Ñ‹Ñ Ñ‚Ñ€Ð°Ð½Ð·Ð°ÐºÑ†Ð¸Ð¾Ð½Ð½Ñ‹Ñ Ð´Ð°Ð½Ð½Ñ‹Ñ Ð¿Ð¾ÐºÐ°Ð·Ð°Ð»Ð° себя наиболее сбалансированной моделью ИЛ. Выявление диапазона параметров количества Ð¸Ð·Ð¾Ð»Ð¸Ñ€ÑƒÑŽÑ‰Ð¸Ñ Ð´ÐµÑ€ÐµÐ²ÑŒÐµÐ² и объема выборки позволяет достичь боль­ шей точности, чем у Ð´Ñ€ÑƒÐ³Ð¸Ñ Ð¼Ð¾Ð´Ð¸Ñ„Ð¸ÐºÐ°Ñ†Ð¸Ð¹ ИЛ: моделей расширенного ИЛ и ИЛ сейсмической активности.
The subject of the study is the modification of the existing the isolating forest algorithm (hereinafter — IF), and the goal is to increase the efficiency of anomaly detection via the isolating forest algorithm by modifying it. Methods of mathematical statistics, machine learning and object-oriented programming were used in the work. The IF algorithm and its modifications were investigated: expanded IF, IF of seismic activity, generalized IF. A proprietary modification of the IF, a weight insulating forest, was also proposed and studied. The algorithms were implemented in C++ 20 without using third-party libraries. The data set for testing contained 16 million transactions collected over approximately 5 months of operation. The developed and implemented model of the weight isolating forest during testing of anomaly detection on depersonalized transactional data proved to be the most balanced IF model. Identification of the range of parameters of the number of isolating trees and the sample size allows to achieve greater accuracy than other modifications of the IF: models of extended IF and IF seismic activity.
Databáze: OpenAIRE