Implementation and Analysis of Latent Dirichlet Allocation Topic Models

Autor: Orlić, Gregor
Přispěvatelé: Šnajder, Jan
Jazyk: angličtina
Rok vydání: 2021
Předmět:
Popis: Modeliranje tema široko je korištena tehnika iz područja obrade prirodnog jezika za otkrivanje latentnih temau skupovima dokumenata. Postupak se oslanja na nenadziranom strojno učenje kako bi otkrio riječi koje sečesto supojavljuju u dokumentima. Latentna Dirichletova alokacija (engl. Latent Dirichlet Allocation - LDA) od Blei et al. (2003) najčešće je korišten model tema. LDA pretpostavlja da je svaki dokument mješavina tema,pri čemu je svaka tema mješavina riječi. Dok je teoretska podloga LDA dobro shvaćena, njena praktičnaimplementacija postavlja niz izazova, najčešće povezanih s činjenicom da optimizacija uključuje posteriornu distribuciju parametara koja nije traktabilna. U radu su implementirane dvije metode optimizacije LDA algoritma, varijacijsko zaključivanje i Gibbsovo uzorkovanje. Provedena je analiza kvalitete generiranih tema, kao i računalne performanse. Implementirane metode su uspoređene s postojećim implementacijama. Topic modeling is a widely used technique in natural language processing for discovering latent topics in document collections. The method relies on unsupervised machine learning to discover words often co-occurring in documents. Latent Dirichlet allocation (LDA) of Blei et al. (2003) is the most commonly used topic model. The LDA assumes that each document is a mixture of topics, with each topic being a mixture of words. While the theory of LDA is well understood, its implementation poses a series of practical challenges, mostly related to optimization involving the intractable parameter posterior distribution. Two optimization methods were implemented, variational inference and Gibbs sampling. Both methods were evaluated for their topic quality, alongside computational performance. The methods were compared to existing implementations.
Databáze: OpenAIRE