ДОСЛІДЖЕННЯ МЕТОДІВ ОБРОБКИ ТА АНАЛІЗУ ТЕКСТУ ПРИ ОРГАНІЗАЦІЇ ЕЛЕКТРОННИХ СХОВИЩ ІНФОРМАЦІЙНИХ ОБ’ЄКТІВ

Autor: Olesia Barkovska, Viktor Khomych, Oleksandr Nastenko
Rok vydání: 2022
Předmět:
Zdroj: Innovative Technologies and Scientific Solutions for Industries; No. 1 (19) (2022): INNOVATIVE TECHNOLOGIES AND SCIENTIFIC SOLUTIONS FOR INDUSTRIES; 5-12
Современное состояние научных исследований и технологий в промышленности; № 1 (19) (2022): СОВРЕМЕННОЕ СОСТОЯНИЕ НАУЧНЫХ ИССЛЕДОВАНИЙ И ТЕХНОЛОГИЙ В ПРОМЫШЛЕННОСТИ; 5-12
Сучасний стан наукових досліджень та технологій в промисловості; № 1 (19) (2022): СУЧАСНИЙ СТАН НАУКОВИХ ДОСЛІДЖЕНЬ ТА ТЕХНОЛОГІЙ В ПРОМИСЛОВОСТІ; 5-12
ISSN: 2524-2296
2522-9818
DOI: 10.30837/itssi.2022.19.005
Popis: The subject matter of the article is electronic storage of information objects (IO) ordered by specified rules at the stage of accumulation of qualification thesis and scientific work of the contributors of the offered knowledge exchange system provided to the system in different formats (text, graphic, audio). Classified works of contributors of the system are the ground for organization of thematic rooms for discussion to spread scientific achievements, to adopt new ideas, to exchange knowledge and to look for employers or mentors in different countries. The goal of the work is to study the libraries of text processing and analysis to speed-up and increase accuracy of the scanned text documents classification in the process of serialized electronic storage of information objects organization. The following tasks are: to study the text processing methods on the basis of the proposed generalized model of the system of classification of scanned documents with the specified location of the block of text processing and analysis; to investigate the statistics of change in the execution time of the developed parallel modification of the methods of the word processing module for the system with shared memory for collections of text documents of different sizes; analyze the results. The methods used are the following: parallel digital sorting methods, methods of mathematical statistics, linguistic methods of text analysis. The following results were obtained: in the course of the research fulfillment the generalized model of the scanned documents classification system that consist of image processing unit and text processing unit that include unit of the scanned image previous processing; text detection unit; previous text processing; compiling of the frequency dictionary; text proximity detection was offered. Conclusions: the proposed parallel modification of the previous text processing unit gives acceleration up to 3,998 times. But, at a very high computational load (collection of 18144 files, about 1100 MB), the resources of an ordinary multiprocessor-based computer with the shared memory obviously is not enough to solve such problems in the mode close to real time.
Предметом исследования в статье является электронное хранилище информационных объектов, упорядоченное по определенным правилам на этапе накопления квалификационных и научных работ участников предлагаемой системы обмена знаниями, поступающими в систему в различных форматах (текстовые, графические, аудио). Классифицированные работы участников системы являются основанием для организации тематических комнат для обсуждения с целью распространения научных достижений, заимствования новых идей, обмена знаниями и поиска работодателей или менторов в разных странах мира. Цель работы – исследование библиотек обработки и анализа текста с целью ускорения и увеличения точности классификации сканированных текстовых документов при организации упорядоченного электронного хранилища информационных объектов. В статье решаются следующие задачи: исследовать методы обработки и анализа текста на основе предложенной обобщенной модели системы классификации сканированных документов с указанным местом блока обработки и анализа текста; исследовать статистику изменение времени выполнения разработанной параллельной модификации методов модуля предварительной обработки текста для системы с общей памятью для коллекций текстовых документов разного размера; проанализировать полученные результаты. Используются следующие методы: параллельные численные методы сортировки, методы математической статистики, лингвистические методы анализа текста. Получены следующие результаты: в ходе выполнения исследований была предложена обобщенная модель системы классификации сканированных документов, состоящая из блока работы с изображением и блока работы с текстом, которые, в свою очередь, включают модули предварительной обработки сканируемого изображения; модуль распознавания текста; предварительной обработки текста; построения частотного словаря; определение текстовой близости. Выводы: предложенная параллельная модификация модуля предварительной обработки текста дает ускорение в 3,998 раза. Но, при очень высокой вычислительной нагрузке (коллекция из 18144 файлов, около 1100Мб), ресурсов вычислителя на базе многопроцессорного ЦПУ с общей памятью недостаточно для решения подобных задач в режиме, приближенном к реальному времени.
Предметом дослідження в статті є електронне сховище інформаційних об’єктів, впорядковане за визначеними правилами на етапі накопичення кваліфікаційних та наукових робіт учасників запропонованої системи обміну знаннями, наданими до системи у різних форматах (текстові, графічні, аудіо). Класифіковані роботи учасників системи є підставою для організації тематичних кімнат для обговорення із метою розповсюдження наукових досягнень, запозичення нових ідей, обміну знаннями та пошуку роботодавців або менторів у різних країнах світу. Мета роботи – дослідження бібліотек обробки та аналізу тексту із метою прискорення та збільшення точності класифікації сканованих текстових документів при організації впорядкованого електронного сховища інформаційних об’єктів. В статті вирішуються наступні завдання: дослідити методи обробки та аналізу тексту на базі запропонованої узагальненої моделі системи класифікації сканованих документів із зазначеним місцем блоку обробки та аналізу тексту; дослідити статистику зміну часу виконання розробленої паралельної модифікації методів модулю попередньої обробки тексту для системи із загальною пам’яттю для колекцій текстових документів різного розміру; проаналізувати отримані результати. Використовуються такі методи: паралельні чисельні методи сортування, методи математичної статистики, лінгвістичні методи аналізу тексту. Отримано наступні результати: в ході виконання досліджень, було запропоновано узагальнену модель системи класифікації сканованих документів, яка складається з блоку роботи із зображенням та блоку роботи із текстом, які, в свою чергу, включають модулі попередньої обробки сканованого зображення; модуль розпізнавання тексту; попередньої обробки тексту; побудови частотного словнику; визначення текстової близькості. Висновки: запропонована паралельна модифікація модулю попередньої обробки тексту дає прискорення до 3,998 разів. Але, при дуже високому обчислювальному навантаженні (колекція з 18144 файлів, близько 1100Мб), ресурсів обчислювача на базі багатопроцесорного ЦПУ із загальною памяттю не достатньо для вирішення подібних задач у режимі, наближеному до реального часу.
Databáze: OpenAIRE