Korpus učbenikov za učenje slovenščine kot drugega in tujega jezika

Autor: Klemen, Matej, Arhar Holdt, Špela, Pollak, Senja, Kosem, Iztok, Huber, Damjan, Lutar, Mateja
Jazyk: slovinština
Rok vydání: 2023
Předmět:
Zdroj: Na stičišču svetov, pp. 165-174, 2022.
Popis: V prispevku prikažemo, kako je potekalo oblikovanje korpusa učbenikov za učenje slovenščine kot drugega in tujega jezika – KUUS, ki je nastal kot vzporedni projekt priprave stopenjskih beril na Centru za slovenščino kot drugi in tuji jezik. KUUS v trenutni različici vključuje 17 učbenikov, obsega 691.003 pojavnice oz. 491.022 besed in je skladno z načeli priprave tovrstnih jezikovnih virov opremljen z metapodatki in oznakami, ki omogočajo uporabo jezikovnih podatkov za različne namene. Predstavimo metodološke odločitve, ki smo jih sprejeli pri pripravi korpusa, trenutno različico korpusa in prvi primer uporabe korpusnih podatkov. Opišemo, kako smo podatke uporabili za pripravo pogostnostnih seznamov besed, ki so prvi korak do korpusno podprtega nabora jedrnega besedišča za slovenščino kot drugi ali tuji jezik in omogočajo primerjavo z drugimi seznami besed. Prispevek zaključimo z načrti za nadaljnji razvoj korpusa in seznamov. This article describes the creation of a corpus of textbooks for learning Slovenian as a second and foreign language. The KUUS corpus was created as a parallel project for developing graded readers at the Center for Slovenian as a Second and Foreign Language. In its current version, KUUS includes seventeen textbooks, comprises 691,003 tokens or 491,022 words, and, in line with the principles of preparing language resources of this kind, is equipped with metadata and annotations that allow the linguistic data to be used for various purposes. The methodological decisions made in preparing the corpus, the current version of the corpus, and a first example of the use of corpus data are presented. The paper describes how the data were used to compile word frequency lists, which are the first step toward a corpus-based core vocabulary for Slovenian as a second or foreign language and allow comparison with other word lists. The article concludes with plans for further development of the corpus and lists.
Databáze: OpenAIRE