Research of handwriting text recognition algorithm using machine learning

Jazyk: ruština
Rok vydání: 2022
Předmět:
DOI: 10.18720/spbpu/3/2022/vr/vr22-2830
Popis: На сегодняшний день одной из Ð½ÐµÑ€ÐµÑˆÐµÐ½Ð½Ñ‹Ñ Ð·Ð°Ð´Ð°Ñ‡ в области компьютерного зрения и искусственного интеллекта является задача распознавания рукописного текста. Различные решения данной задачи или применимы в ÑƒÐ·ÐºÐ¸Ñ Ð¾Ð±Ð»Ð°ÑÑ‚ÑÑ Ð¸ не претендуют на общность, или показывают недостаточное качество распознавания. В работе исследуется задача распознавания рукописного кириллического текста. Рассматриваются предложенные ранее актуальные решения данной задачи, предлагается общая структура алгоритма распознавания, методы решения подзадач и программная реализация Ð¾Ñ‚Ð´ÐµÐ»ÑŒÐ½Ñ‹Ñ Ð¼Ð¾Ð´ÑƒÐ»ÐµÐ¹. Разработанный алгоритм распознавания текста основан на выделении в тексте Ð¾Ñ‚Ð´ÐµÐ»ÑŒÐ½Ñ‹Ñ ÑÐ»Ð¾Ð² и распознавании в Ð½Ð¸Ñ Ð¾Ñ‚Ð´ÐµÐ»ÑŒÐ½Ñ‹Ñ ÑÐ¸Ð¼Ð²Ð¾Ð»Ð¾Ð² при помощи Ð½ÐµÐ¹Ñ€Ð¾Ð½Ð½Ñ‹Ñ ÑÐµÑ‚ÐµÐ¹. Результаты распознавания символов обобщаются применением алгоритма постобработки, который определяет наиболее достоверные варианты распознанного слова. В работе предлагаются решения для каждого из этапов работы алгоритма и Ð²ÑÐ¿Ð¾Ð¼Ð¾Ð³Ð°Ñ‚ÐµÐ»ÑŒÐ½Ñ‹Ñ Ð·Ð°Ð´Ð°Ñ‡. Решаются задачи предобработки изображения, выделения на нем границ слов и задачи постобработки. Решается задача построения жизненного цикла нейронной сети, предназначенной для распознавания символов, в частности, задача построения размеченной выборки с границами Ð¾Ñ‚Ð´ÐµÐ»ÑŒÐ½Ñ‹Ñ ÑÐ¸Ð¼Ð²Ð¾Ð»Ð¾Ð². Также решается задача подбора макропараметров алгоритма постобработки с использованием алгоритма на основе эволюционной стратегии.
Today, one of the unsolved problems in the area of computer vision and artificial intelligence is the problem of recognition handwriting text. Various solutions to this problem do not pretend to be general, or to lack the quality of properties.This paper research the problem of recognition handwriting Cyrillic text. There is a review of previously proposed decisions of this problem. A text recognition algorithm has been developed based on the selection of detached words in the text and the detection of detached characters in them using neural networks. Character recognition results are summarized by applying a post-processing algorithm that determines the most likely variants of the recognized word. The paper considers solutions for each of the studies of the algorithm and auxiliary problems. The tasks of image preprocessing, word boundaries detection and post-processing tasks are solved. The problem of constructing the life cycle of a neural network designed for large symbols is being solved, in particular, the problem of constructing a labeled sample with boundaries of individual symbols. The problem of selection of macro parameters for the post-processing algorithm is also solved using an algorithm based on an evolutionary strategy.
Databáze: OpenAIRE