Study of clustering methods for measuring information

Jazyk: ruština
Rok vydání: 2020
Předmět:
DOI: 10.18720/spbpu/3/2020/vr/vr20-3676
Popis: Тема выпускной квалификационной работы: «Исследование методов кластеризации измерительной информации». Данная работа посвящена исследованию особенностей алгоритмов кластеризации при обработке измерительной информации и разработке обобщенного алгоритма метрологически обоснованной кластеризации. По итогам работы было установлено, что на практике чаще всего кластеризация данных происходит без согласования с метрологическими характеристиками. Данное обстоятельство увеличивает риск необоснованной оценки результатов кластерного анализа. Была предложена теоретическая основа метрологически обоснованной кластеризации, главным преимуществом которой является возможность использовать разные уже известные алгоритмы кластеризации, без всякой их модификации. Апробация данного подхода выполнена на примере плотностного алгоритма кластеризации DBSCAN на языке Python. Отдельным пунктом работы являлось исследование возможности использования самоорганизующихся карт Кохонена в составе алгоритма метрологически обоснованной кластеризации. По итогу работы была реализована библиотека на языке Python для удобной работы с самоорганизующимися картами Кохонена и их визуализацией.
The subject of the graduate qualification work is “Study of clustering methods for measuring information”. The given work is devoted to studying features of clustering algorithms in the processing of measurement information, and to developing a generalized algorithm for metrologically reasonable clustering. According to the results of the work, it has been found that in practice, most frequently, data clustering occurs without coordination with metrological characteristics. This circumstance increases the risk of unjustified assessment of cluster analysis results. The theoretical basis of metrologically reasonable clustering has been proposed, the main advantage of which is the ability to use various already known clustering algorithms without any modification. The approbation of this approach has been carried out on the example of the density-based clustering algorithm DBSCAN in Python. A separate item of the work has been the study of the possibility of using Kohonen self-organizing maps as part of the algorithm of metrologically reasonable clustering. As a result of the research, a Python library has been implemented for convenient work with Kohonen self-organizing maps and their visualization.
Databáze: OpenAIRE