Cyrillic Word Error Program Based on Machine Learning

Autor: Khajidmaa Battumur, Uuganbaatar Dulamragchaa, Sodjamts Enkhbat, Lhagvasuren Altanhuyag, Purevsuren Tumurbaatar
Rok vydání: 2022
Zdroj: Journal of Institute of Mathematics and Digital Technology. 4:54-60
ISSN: 2708-4043
2708-0242
DOI: 10.5564/jimdt.v4i1.2661
Popis: With the rapid development of information technology, the main means of human communication-language-is also shifting rapidly from physical to digital forms. That being said, natural language processing research on foreign languages have been conducted regularly with ready-to-use and reliable programs already widely available on the market. While, initially, spellchecking programs were developed using traditional methods like n-gram methods, modern approaches embrace machine learning methods. Hence, with this research, we aimed to train a natural language processing models more suitable for the Mongolian language structure of which BERT and SymSpell models were trained and tested. Машин Сургалтын Аргад Суурилсан Монгол Хэлний Үгийн Алдаа Шалгах Программ Хураангуй: Мэдээллийн технологи хурдацтай хөгжин өөрчлөгдсөөр хүн төрөлхтний харилцааны гол хэрэглүүр болсон хэл бичиг биет байдлаас тоон хэлбэр рүү эрчимтэй шилжиж байна. Тиймдээ ч гадаадад эх хэл шинжлэлийн судалгаанууд тогтмол хийгдсээр эцсийн хэрэглэгчид шууд хэрэглэх боломжтой бөгөөд баталгаатай программуудыг зах зээлд нэвтрүүлээд байна. Анх үгийн алдаа шалгах программууд нь уламжлалт арга буюу n-gram арга дээр суурилдаг байсан бол орчин үед машин сургалтын аргуудыг түлхүү ашиглах болсон байна. Тиймээс энэхүү судалгааны ажлаараа монгол хэлний бүтцэд тохирсон машин сургалт дээр суурилсан үгийн алдаа засах загваруудыг сургахыг зорилоо. Судалгааны хүрээнд машин сургалтын BERT болон SymSpell загваруудыг сургаж, туршсан болно. Түлхүүр үгс: BERT загвар, SymSpell загвар, Эх хэл боловсруулалт, алдаа шалгуур
Databáze: OpenAIRE