JANES v0.4: Korpus slovenskih spletnih uporabniških vsebin
Autor: | Nikola Ljubešić, Darja Fišer, Tomaž Erjavec |
---|---|
Rok vydání: | 2016 |
Předmět: |
Normalization (statistics)
Linguistics and Language Information retrieval Computer science business.industry Lemmatisation spletna slovenščina User-generated content gradnja korpusa computer.software_genre nestandardna slovenščina Language and Linguistics lcsh:Philology. Linguistics Metadata Annotation Workflow lcsh:P1-1091 uporabniške spletne vsebine Artificial intelligence Computer-mediated communication računalniško posredovana komunikacija business Internet slang computer Natural language processing |
Zdroj: | Slovenščina 2.0: Empirične, aplikativne in interdisciplinarne raziskave, Vol 4, Iss 2 (2016) Slovenščina 2.0 |
ISSN: | 2335-2736 |
DOI: | 10.4312/slo2.0.2016.2.67-99 |
Popis: | The paper presents the current version of the Slovene corpus of netspeak Janes which contains tweets, forum posts, news comments, blogs and blog comments, and user and talk pages from Wikipedia. First, we describe the harvesting procedure for each data source and provide a quantitative analysis of the corpus. Next, we present automatic and manual procedures for enriching the corpus with metadata, such as user type, gender and region, and text sentiment and standardness level. Finally, we give a detailed account of the linguistic annotation workflow which includes tokenization, sentence segmentation, rediacritisation, normalization, morphosyntactic tagging and lemmatization. Namen pričujočega prispevka je preveriti vrednost korpusa Janes za normativistične raziskave. Korpus Janes namreč prinaša besedila, ki za razliko od gradiva v referenčnih korpusih večinoma niso jezikovno korigirana in zato realneje izkazuje tendence rabe oz. (ne)intuitivnost obstoječih jezikovnih pravil v širši jezikovni skupnosti. Za študijo primera smo izbrali zveze samostalnika z neujemalnim levim prilastkom (solo petje, RTV prispevek). Analiza razkriva: da se referenčni korpus Kres in korpus Janes glede zapisa teh zvez pomembno razlikujeta; da je raba tovrstnih zvez v korpusu Janes pogostejša in bolj raznolika kot v korpusu Kres; da se v obeh korpusih pojavlja visok delež zvez, ki v rabi izkazujejo variantnost v zapisovanju, tudi na ravni posameznih prilastkov; in - vsaj na prvi pogled - presenetljivo, da je raba v korpusu Janes konsistentnejša, kar nakazuje, da jezikovna regulacija obravnavanega problema povečuje variantnost v jezikovni rabi. Prispevek temelji na konferenčni temi, ki smo jo podatkovno in vsebinsko razširili, vključili smo tudi razpravo o možni nadaljnji obravnavi izbranega jezikovnega problema, širše pa o pomenu in načinu vključitve korpusa Janes v metodologijo slovenske normativistike. |
Databáze: | OpenAIRE |
Externí odkaz: |