Obvladovanje slovničnih napak v šolskih pisnih izdelkih z metodami za obdelavo naravnega jezika
Autor: | MOKOTAR, ROK |
---|---|
Přispěvatelé: | Robnik Šikonja, Marko |
Jazyk: | slovinština |
Rok vydání: | 2023 |
Předmět: |
grammar error handling
Classla-Stanza tool Lektor corpus obvladovanje slovničnih napak globoke nevronske mreže model SloBERTa transformer architecture korpus Šolar deep neural networks korpus Lektor model SloT5 orodje Classla-Stanza SloT5 model leksikon Sloleks arhitektura transformer SloBERTa model Šolar corpus Sloleks lexicon |
Popis: | V okviru diplomskega dela je predstavljen razvoj sistema za obvladovanje slovničnih napak, ki smo ga v grobem razdelili na tri podprobleme, in sicer na zaznavanje, prepoznavanje in popravljanje napak. Omenjene probleme smo rešili z uporabo velikih jezikovnih modelov arhitekture transformer, pri čemer smo za zaznavanje in prepoznavanje slovničnih napak uporabili model SloBERTa, slovensko različico modela BERT, za popravljanje slovničnih napak pa model SloT5, slovensko različico modela T5. Učenje in evalviranje modelov smo izvedli nad slovenskima korpusoma slovničnih popravkov Šolar in Lektor, uporabili pa smo tudi slovenski oblikoslovni leksikon Sloleks in označevalno orodje Classla-Stanza. S pomočjo več metrik smo ocenili delovanje modelov. Modela zaznavanja in prepoznavanja dosegata F-oceno 88 % in 14 %, model popravljanja pa GLEU oceno 50 %. The thesis presents the development of a grammar error handling system, which was divided into three sub-problems: error detection, recognition, and correction. We addressed these problems using large language models based on the transformer architecture. Specifically, we used the SloBERTa model, the Slovenian version of the BERT model, to detect and recognize grammatical errors. Additionally, we used the SloT5 model, the Slovenian version of the T5 model, to correct grammatical errors. The models were trained and evaluated on the Slovene corpora of grammar corrections Šolar and Lektor. We also used the Slovene morphological lexicon Sloleks and the Classla-Stanza tagging tool. To evaluate the performance of the models, we used several metrics. The detection and recognition models achieved the F-score of 88% and 14%, respectively. The correction model achieved the GLEU score of 50%. |
Databáze: | OpenAIRE |
Externí odkaz: |