International system of knowledge exchange for young scientists
Autor: | Dmytro Rosinskiy, Olesia Barkovska, Georgiy Ivaschenko, Vladyslav Kholiev, Daria Pyvovarova |
---|---|
Jazyk: | angličtina |
Rok vydání: | 2021 |
Předmět: |
likeness
Information theory Computer science стемінг system computer.software_genre lemmatization попередня обробка stemming QA76.75-76.765 Acceleration класифікація Computer software Q350-390 preprocessing shingles лематизація business.industry Lemmatisation General Engineering proximity acceleration nlp classification processing Artificial intelligence business computer text Natural language processing |
Zdroj: | Сучасні інформаційні системи, Vol 5, Iss 1, Pp 69-74 (2021) |
Popis: | The paper proposes a system which is electronic data storage (of qualification works of students from different countries) and provides the capability to identify and connect young scientists conducting research on a related problem area. The purpose of developing this system is to provide opportunities for knowledge exchange, research in a team on a common problem, as well as to identify scientific trends in different countries. In this paper, the preprocessing methods influence on the work of classifiers such as Logistic Regression, LSTM, BERT, LightGBM was researched. A study was conducted on the speed of classification and F1 assessment. Conclusions. Lemmatization showed to require a shorter oper ating time compared to steaming by almost twice and a better score by an average of 5 percent, so it was decided to use the Logistic Regression classifier with lemmatization at the stage of text preparation in the subsequent operation of the proposed ISKE. У роботі запропонована система, яка являє електронне сховище даних (кваліфікаційних робіт студентів із різних країн) та забезпечує можливість виявити та зв’язати між собою молодих вчених, що ведуть дослідження над єдиною проблемною областю. Метою розробки даної системи є забезпечення можливості обміну знаннями, виконання досліджень у команді над спільною проблемою, а також визначення наукових тенденцій у різних країнах світу. У роботі досліджено вплив методів препроцесінгу на роботу таких класифікаторів, як Logistic Regression, LSTM, BERT, LightGBM. Проведено дослідження щодо швидкості класифікації та F1 оцінки. Висновки. Лематизація показала коротший час роботи у порівнянні зі стемінгом майже в два рази та кращу оцінку в середньому на 5 відсотків, тому було прийнято рішення використовувати класифікатор Logistic Regression із лематизацією на етапі підготовки тексту у подальшій роботі запропонованої системи обміну знаннями молодих науковців. |
Databáze: | OpenAIRE |
Externí odkaz: |