Lietuviškų naujienų grupavimo algoritmų tyrimas

Autor: Pranckaitis, Vilius
Přispěvatelé: Lukoševičius, Mantas
Jazyk: litevština
Rok vydání: 2017
Předmět:
Popis: Šiame darbe tiriamas dokumentų klasterizavimo procesas, taikant jį naujienų straipsniams iš trijų didžiųjų lietuviškų naujienų portalų. Darbo metu nagrinėjami įvairūs klasterizavimo aspektai, pradedant požymių atrankos procesu ir baigiant k‑vidurkių bei hierarchinio klasterizavimo metodų palyginimu. Tyrimo metu pasiūlyta metrika, skirta įvertinti, kaip gerai skirtingi žodžiai apibūdina klasteryje esančių straipsnių turinį. Taip pat pasiūlytas dviejų lygių klasterizavimo metodas, apjungiantis hierarchinį ir k‑vidurkių algoritmus. Tyrimo rezultatai parodė, kad TF–IDF ir kamienizavimas ženkliai pagerino klasterizavimo kokybę, lyginant su paprastu TF ar neatliktu kamienizavimu. K‑vidurkių algoritmas parodė geresnius klasterizavimo rezultatus nei hierarchiniai metodai bei buvo atsparesnis požymių erdvės mažinimui pasitelkiant žodžių filtravimą. Pasiūlytas dviejų lygių klasterizavimas parodė neblogus rezultatus, tačiau kokybe neprilygo k‑vidurkių algoritmui.
This work studies document clustering application for clustering news articles from three major Lithuanian news sites. Different aspects of clustering are studied, including feature selection and comparison of k‑means and hierarchical clustering algorithms. This study proposes a metric for measuring how well particular words describe the contents of the cluster. In addition, a two level clustering method was proposed, combining hierarchical and k‑means algorithms. The results show that TF–IDF with stemming produce significantly better results than simple TF and/or no stemming. Also, k‑means produced better quality clustering than hierarchical methods and was less sensitive to feature space reduction. The proposed two level clustering showed promising results, however, clustering quality didn’t match the one produced by k‑means algorithm.
Databáze: OpenAIRE