Popis: |
Актуальність теми: для спрощення пошуку необхідної інформації серед наукових публікацій в Україні використовується бібліотечна класифікація. Проте наразі ця система є недосконалою, адже при класифікації допускаються помилки, а в деяких випадках вона виконується для збірника загалом, що призводить до часткової невідповідності для деяких статей, що в нього входять. Також виконання класифікації сторонньою людиною (наприклад, бібліотекарем чи редактором) вимагає багато часу. Вирішенням цієї проблеми є автоматизація процесу класифікації. За рахунок використання машинного навчання можна створити автоматичний класифікатор, яких дозволить покращити точність класифікації порівняно з ручною та прискорити класифікацію нових надходжень. Мета дослідження: створення класифікатора наукових статей за категоріями УДК на основі машинного навчання. Для реалізації поставленої мети були сформульовані наступні завдання: – систематизація існуючих алгоритмів класифікації текстових даних; – збір достатньої навчальних даних, розробка класифікатору на основі машинного навчання; – тестування та аналіз ефективності отриманого алгоритму; – визначення подальшого напрямку досліджень. Об’єкт дослідження: бібліотечна класифікація наукових статей. Предмет дослідження: алгоритми класифікації текстових даних. Методи дослідження: для розв’язання поставленої задачі використовувались наївний баєсів класифікатор, нейронні мережі, алгоритм зворотного поширення помилки. Наукова новизна: найбільш суттєвими науковими результатами магістерської дисертації є дослідження можливостей автоматизації класифікації наукових текстів; пошуку помилок у вже класифікованих текстах; створення алгоритмів класифікації для розрізнення категорій у текстів близьких тематик. Практичне значення отриманих результатів визначається тим, що запропонований алгоритм дозволяє досягти точності бібліотечної класифікації в 86%, що дозволяє використовувати його для пошуку і виправлення помилок у класифікації текстів, а також як допоміжного засобу при класифікації нових надходжень. Зв’язок роботи з науковими програмами, планами, темами: робота виконувалась на кафедрі автоматизованих систем обробки інформації та управління Національного технічного університету України «Київський політехнічний інститут ім. Ігоря Сікорського» в рамках теми «Математичні моделі та технології в СППР». Державний реєстраційний номер 0117U000914 Апробація: основні положення роботи доповідались і обговорювались на XІІ науково-практичній конференції магістрантів та аспірантів «Прикладна математика та комп’ютинг» (ПМК-2019), а також на третій всеукраїнській науково-практичній конференції молодих вчених та студентів «Інформаційні системи та технології управління» (ІСТУ-2019). Relevance: to simplify the search for relevant information among scientific publications in Ukraine, a library classification is used. However, this system is not perfect at this time, because classification is erroneous, and in some cases it is executed for the journal as a whole, which results in partial discrepancies for some of its articles. Also, it takes a long time to perform the classification by a third party (such as a librarian or editor). The solution to this problem is to automate the classification process. By using machine learning, automatic classifier can be created, which will improve the accuracy of the classification compared to manual and accelerate the classification of new revenues. Purpose: create a classifier of scientific articles by UDC categories based on machine learning. To achieve this goal, the following tasks were formulated: - systematization of existing text data classification algorithms; - gathering sufficient training data, developing a classifier based on machine learning; - testing and analysis of the efficiency of the obtained algorithm; - determining the further direction of research. Object of study: library classification of scientific articles. Subject of study: algorithms for classification of text data. Research methods: naive Bayes classifier, neural networks, backpropagation algorithm were used to solve this problem. Scientific novelty: the most significant scientific results of a master's thesis are the study of the possibilities of automation of the classification of scientific texts; search for mistakes in already classified texts; creation of classification algorithms for distinguishing categories in texts of similar subjects. The practical value of the obtained results is determined by the fact that the proposed algorithm allows to achieve the accuracy of library classification in 86%, which allows to use it for finding and correcting errors in the classification of texts, as well as an aid in the classification of new receipts. Relationship with working with scientific programs, plans, topics: work was performed at the Department of Automated Information Processing and Management Systems of the Igor Sikorsky National Technical University of Ukraine «Kyiv Polytechnic Institute» within the topic «Mathematical Models and Technologies in DSS». State Registration Number 0117U000914 Approbation: the main provisions of the work were reported and discussed at the XIII Scientific and Practical Conference of undergraduate and graduate students «Applied Mathematics and Computing» (AMP-2019), as well as at the third all-Ukrainian scientific and practical conference of young scientists and students «Information Systems and Technologies of Management» (ISTM-2019). |