Popis: |
Generativni modeli s latentnim varijablama statistički su modeli podataka koji podatke opisuju temeljem njihovih skrivenih odnosno latentnih svojstava. Tematski modeli (engl. topic models) vrsta su generativnih modela s latentnim varijablama koji omogućavaju modeliranje apstraktnih tema sadržanih u tekstu dokumenta. Dana je teorijska podloga tematskih modela kao i njihov smještaj unutar većih grupa statističkih modela. Proučavane su teoretske osnove modela probabilističke semantičke analize (pLSA) i latentne Dirichletove alokacije (LDA). U eksperimentalnom dijelu pokazana je ispravnost generativnog smjera modela LDA i rezultati primjene istog na modeliranje dokumenata hrvatskog jezika. Na kraju je demonstrirana perspektivnost modela LDA za redukciju dimenzionalnosti reprezentacije dokumenata. |