Development of the algorithm of keyword search in the Kazakh language text corpus
Autor: | Akanova, Akerke, Ospanova, Nazira, Kukharenko, Yevgeniya, Abildinova, Gulmira |
---|---|
Jazyk: | angličtina |
Rok vydání: | 2019 |
Předmět: | |
Zdroj: | Eastern-European Journal of Enterprise Technologies; Том 5, № 2 (101) (2019): Information technology. Industry control systems; 26-32 Восточно-Европейский журнал передовых технологий; Том 5, № 2 (101) (2019): Информационные технологии. Системы управления в промышленности; 26-32 Східно-Європейський журнал передових технологій; Том 5, № 2 (101) (2019): Інформаційні технології. Системи управління в промисловості; 26-32 |
ISSN: | 1729-3774 1729-4061 |
Popis: | The issue of semantic text analysis occupies a special place in computational linguistics. Researchers in this field have an increased interest in developing an algorithm that will improve the quality of text corpus processing and probabilistic determination of text content. The results of the study on the application of methods, approaches, algorithms for semantic text analysis in computational linguistics in international and Kazakhstan science led to the development of an algorithm of keyword search in a Kazakh text. The first step of the algorithm was to compile a reference dictionary of keywords for the Kazakh language text corpus. The solution to this problem was to apply the Porter (stemmer) algorithm for the Kazakh language text corpus. The implementation of the stemmer allowed highlighting unique word stems and getting a reference dictionary, which was subsequently indexed. The next step is to collect learning data from the text corpus. To calculate the degree of semantic proximity between words, each word is assigned a vector of the corresponding word forms of the reference dictionary, which results in a pair of a keyword and a vector. And the last step of the algorithm is neural network learning. During learning, the error backpropagation method is used, which allows a semantic analysis of the text corpus and obtaining a probabilistic number of words close to the expected number of keywords. This process automates the processing of text material by creating digital learning models of keywords. The algorithm is used to develop a neurocomputer system that will automatically check the text works of online learners. The uniqueness of the keyword search algorithm is the use of neural network learning for texts in the Kazakh language. In Kazakhstan, scientists in the field of computational linguistics conducted a number of studies based on morphological analysis, lemmatization and other approaches and implemented linguistic tools (mainly translation dictionaries). The scope of neural network learning for parsing of the Kazakh language remains an open issue in the Kazakhstan science.The developed algorithm involves solving one of the problems of effective semantic analysis of the text in the Kazakh language Вопрос семантического анализа текста занимает особое место в компьютерной лингвистике. Исследователи данной области имеют повышенный интерес к разработке алгоритма, использование которого позволит повысить качество обработки корпуса текста и вероятностное определение содержания текста. Результаты исследования применений методик, подходов, алгоритмов для семантического анализа текста в компьютерной лингвистике в международной и казахстанской науке привела к разработке алгоритма поиска ключевых слов в тексте на казахском языке. Первым этапом алгоритма было составление эталонного словаря ключевых слов для корпуса текста на казахском языке. Решением этой проблемы стало применение алгоритма Портера (стеммера) для корпуса текстов на казахском языке. Реализация стеммера позволила выделить уникальные основы слов и получить эталонный словарь, который впоследствии проиндексировали. Следующий шаг – это сбор данных по обучению из корпуса текстов. Для вычисления степени семантической близости между словами каждому слову присваивается вектор соответствующих ему словоформ эталонного словаря, в результате которого получается пара – ключевое слово и вектор. И последним шагом алгоритма является обучение нейронных сетей. При обучении применяется метод обратного распространения ошибок, что позволяет провести семантический анализ корпуса текста и получить вероятностное количество слов, близкое к ожидаемому количеству ключевых. Этот процесс позволяет автоматизировать обработку текстового материала путем создания цифровых обучающих моделей ключевых слов. Алгоритм используется для разработки нейрокомпьютерной системы, который будет производить автоматическую проверку текстовых работ обучающихся онлайн курсов. Уникальностью алгоритма поиска ключевых слов является применение обучения нейронной сети для текстов на казахском языке. В Казахстане учеными в области компьютерной лингвистики были проведены ряд исследований на основе применения морфологического анализа, лиммитизации и других подходов и реализованы лингвистические инструменты (в основном словари-переводчики). Область применения обучения нейронных сетей для синтаксического анализа казахского языков остается открытым вопросом в казахстанской науке.Разработанный алгоритм предполагает решение одной из проблем в получении эффективного семантического анализа текста на казахском языке |
Databáze: | OpenAIRE |
Externí odkaz: |