Eduskunnan täysistunnon puheenaiheet 1999–2014: Miten käsitellä LDA-aihemalleja?
Autor: | Makkonen, Kimmo, Loukasmäki, Petri |
---|---|
Jazyk: | finština |
Rok vydání: | 2019 |
Předmět: | |
Zdroj: | Politiikka |
ISSN: | 2669-8617 |
Popis: | Latent Dirichlet Allocation (LDA) on yksi käytetyimmistä laskennallisista tekoälypohjaisista metodeista, joita kutsutaan aihemalleiksi (topic models). Esitämme ja analysoimme eduskunnan täysistuntokeskusteluista laskemiamme LDA-malleja ja arvioimme, mikä aihemäärä olisi mielekäs puheiden sisällön eksploratiiviseen analyysiin. Uutena metodisena sovelluksena analysoimme LDA-aiheiden samanaikaista esiintymistä eri puheissa osuuskorrelaatiokertoimilla. Niiden avulla LDA-mallin tuottamia aiheita voidaan käsitellä samaan tapaan kuin kahdessa saman kaltaisessa metodissa, dynaamisissa aihemalleissa ja korreloituneissa aihemalleissa (correlated topic models ja dynamic topic models), kun aineistoon sisältyy tieto puheiden ajankohdasta ja voidaan olettaa, että sanasto on pysynyt pääpiirteissään muuttumattomana analysoitavalla ajanjaksolla. Lisäksi esitämme luokituksen, jonka avulla ihmisarvioijat voivat analysoida LDA:n tuottamien aiheiden laatua. Tapausesimerkkinä esitämme korrelaatioanalyysin kuntien ja valtion suhdetta käsittelevän aiheen sekä demokratia-aiheen ja budjetti-aiheen yhteyksistä. Täysistuntokeskusteluissa on havaittavissa huomattava muutos ennen ja jälkeen vuoden 2011 eduskuntavaaleja: aiemmin keskustelu käsitteli rahaa ja valtionosuuksia, kun taas Kataisen hallituksen kuntauudistushankkeen aikana debatti käsitteli demokratiaa. Latent Dirilecht Allocation (LDA) is one of the most widely used topic models. Here we present and evaluate LDA models of the plenary sessions of the Finnish parliament Eduskunta and assess which amount of topics is the most sensible to an exploratory analysis of the content of the speeches in the Parliament. As a novel methodological application to quantifying the co-occurrence of different topics in the speeches, we analyze the topics generated by the LDA with compositional correlation coefficients which allows using the LDA in a similar fashion to correlated topic model and dynamic topic models, assuming the data is time stamped and the vocabulary remains unchanged. We present a case example by analyzing the correlation between a topic about municipal issues and state-municipalities relationship and topics about budget debate as well as about politics and democracy. There we can notice a large difference before and after 2011 elections: before the discussion was about money, and after, during the debates about a municipal reform bill, which was dropped, the speeches were on democracy. |
Databáze: | OpenAIRE |
Externí odkaz: |