Tool for visual cluster analysis and consensus clustering

Autor: Permann, Christian
Jazyk: angličtina
Rok vydání: 2020
DOI: 10.25365/thesis.62440
Popis: Eine gute Clustering Lösung für wenig erforschte Daten zu finden ist eine komplexe Aufgabe. Wegen der großen Anzahl an Clustering Algorithmen, welche meist auch viele verschiedene Parameter benötigen, können sich die Ergebnisse stark untereinander, aber auch von dem richtigen Ergebnis, unterscheiden. Mit nur wenig Wissen über die Daten ist auch die Evaluierung welches Ergebnis am nähersten zu der der unterliegenden Wahrheit, beziehungsweise am besten der Struktur der Daten entspricht, eine schwere Aufgabe. Um eine solche Auswahl besser treffen zu können wurden visuelle Frameworks erschaffen, die meist mittels Qualitäts-Metriken die verschiedenen Ergebnisse bewerten und gereiht anzeigen. Da diese Metriken aber auch das Problem haben gewisse Strukturen in Ergebnissen zu bevorzugen zeigen sie sich wiederum bei der Entscheidung über das endgültige Ergebnis als problematisch. Aus diesem Grund schlage ich vor die Eigenschaft wie robust ein Ergebnis ist für die finale Entscheidung heranzuziehen. Um dies zu tun werden die Clusterings auf Meta-Ebene nochmals geclustert, wobei ähnliche Ergebnisse in einer Gruppe mittels Consensus Clustering zu einer Lösung zusammengeführt werden. Dieser Prozess wird weiters durch Visualisierungen unterstützt, so dass ein Experte mit Hilfe seines Wissens die Lösung möglicherweise noch weiter verbessern kann.
Finding a good clustering solution for an unexplored data-set is a non-trivial task. Due to the large number of clustering algorithms that usually have lots of parameters, clustering results may differ strongly from each other and the underlying ground truth. With only little knowledge on the data the evaluation of which result best represents the underlying cluster structure is difficult. To find a fitting selection for this choice, different visual frameworks exist that aim to simplify this choice, usually by ranking the results according to quality measures. As those measures also have the downside of being biased towards specific structures (whether or not they fit the data) they are problematic for selecting a final result. For this reason, I propose to purely use indicators of robustness for the creation or selection of a clustering result. This is done by meta-clustering results from different clustering algorithms and calculating consensus clusterings from groups of similar clusterings. Additionally, this process is supported through visualizations, giving the expert user the possibility to use his knowledge to further improve on the final result.
Databáze: OpenAIRE