Popis: |
Prispevek predstavi težka mesta izdelave korpusov usvajanja tujega in maternega jezika, kot so transkribiranje besedil, anonimizacija, ročno označevanje in vsebinsko kategoriziranje popravkov, v nadaljevanju pa novo prosto dostopno orodje, ki ponuja rešitev za opisane metodološke izzive. Orodje, ki temelji na švedskem programu Svala, smo prilagodili za slovenščino, ga nadgradili, da omogoča delo s korpusoma Šolar in KOST, ter evalvirali s pomočjo dejanske korpusne gradnje. This article highlights the challenges of creating learner and developmental text corpora that feature error corrections: transcription and anonymization of texts, and manual annotation and categorization of corrections. It presents a new freely available tool that offers a solution to these challenges. Based on the Swedish Svala software, the tool has been adapted for Slovenian, modified to work with the Šolar and KOST corpora, and evaluated as part of an actual corpus creation process. |