Разработка квантитативного метода автоматического определения авторства текстового контента на основе статистического анализа распределения N-грам

Autor: Yaroslav Pelekh, Lyudmyla Dzyubyk, Oksana Tereshchuk, Roman Kovalchuk, Nataliia Sokulska, Myroslav Komar, Vasyl Lytvyn, Victoria Vysotska, Ihor Budz
Jazyk: angličtina
Rok vydání: 2019
Předmět:
Computer science
stop-words
020209 energy
0211 other engineering and technologies
Energy Engineering and Power Technology
Context (language use)
02 engineering and technology
computer.software_genre
NLP
Industrial and Manufacturing Engineering
linguometry
Set (abstract data type)
Text processing
Management of Technology and Innovation
021105 building & construction
lcsh:Technology (General)
0202 electrical engineering
electronic engineering
information engineering

content
content-monitoring
content-analysis
statistical linguistic analysis
quantitative linguistics
statistical linguistics
lcsh:Industry
Electrical and Electronic Engineering
Stop words
business.industry
Applied Mathematics
Mechanical Engineering
контент
контент-мониторинг
стоп-слова
контент-анализ
статистический лингвистический анализ
квантытативная лингвистика
статистическая лингвистика
лингвометрия
контент-моніторінг
контент-аналіз
статистийний лінгвістичний аналіз
квантитативна лінгвістика
статистична лінгвістика
лінгвометрія
Unit of analysis
Computer Science Applications
Quantitative linguistics
Identification (information)
Control and Systems Engineering
Content analysis
UDC 004.89
lcsh:T1-995
lcsh:HD2321-4730.9
Artificial intelligence
business
computer
Natural language processing
Zdroj: Eastern-European Journal of Enterprise Technologies, Vol 6, Iss 2 (102), Pp 28-51 (2019)
Східно-Європейський журнал передових технологій; Том 6, № 2 (102) (2019): Інформаційні технології. Системи управління в промисловості; 28-51
Восточно-Европейский журнал передовых технологий; Том 6, № 2 (102) (2019): Информационные технологии. Системы управления в промышленности; 28-51
Eastern-European Journal of Enterprise Technologies; Том 6, № 2 (102) (2019): Information technology. Industry control systems; 28-51
ISSN: 1729-4061
1729-3774
Popis: The peculiarities of the application of linguo-statistics technologies for the identification of the style of the author of text content of scientific and technical profile are considered. Quantitative linguistic analysis of a text uses the benefits of content monitoring based on the NLP methods to identify and analyze the set of stop words, keywords, set phrases and to study N-gram. The latter are used in the linguometry methods to determine in per cent if the given text belongs to a particular author. The quantitative method for automatic text content authorship attribution was developed based on statistical analysis of the 3-gram distribution. The approach to the implementation of identification of the author of the text in the Ukrainian language of the scientific and technical profile was proposed. Experimental results of the proposed method to determine the belonging of the analyzed text to a specific author in the presence of the reference text were obtained. Application of the linguo-statistical analysis of the 3-grams to a set of articles will make it possible to form a subset of publications that are similar in linguistic descriptions. Imposing additional conditions in the form of statistical and quantitative analyses (a set of keywords, set expressions, stylometric, linguometric analyses, etc.) on a subset will allow a significant reduction of this subset by specifying the list of the most likely author. For qualitative and effective content analysis when determining the degree of authorship of a particular author, we propose to analyze the reference text and the one under consideration at several stages: linguometric analysis of the coefficients of the diversity of the author's speech, stylometric analysis, analysis of set expressions, linguo-statistical analysis of 3-grams. For automated text processing, not only the frequency of occurrence of a certain category, but also its existence in the studied text in general are important. Quantitative computation makes it possible to draw objective conclusions about the orientation of materials by the number of using the units of analysis in the studied texts. Qualitative analysis does the same, but as a result of the study of whether (and in what context) there is a certain important original category in general
Рассмотрены особенности применения технологий лингвостатистикы для идентификации стилистики автора текстового контента научно-технического профиля. Квантитативных лингвистический анализ текста использует преимущества контент-мониторинга на основе методов NLP для определения и анализа множества стоповых слов, ключевых слов, устойчивых словосочетаний и исследования N-грамм. Последние используют в методах лингвометрии для определения принадлежности анализируемого текста конкретном автору в процентах. Разработан квантитативных метод автоматического определения авторства текстового контента на основе статистического анализа распределения 3-грамм. Предложен подход реализации определения автора русскоязычного текста научно-технического профиля. Получены экспериментальные результаты предложенного метода для определения принадлежности анализируемого текста конкретном автору при наличии эталонного авторского текста. Применение лингвостатистичного анализа 3-грамм множеству статей позволит сформировать подмножество подобных по лингвистическим характеристикам публикаций. Наложение на подмножество дополнительных условий в виде проведения статистических и квантитативных анализов (множества ключевых слов, устойчивых словосочетаний, стилеметричних, лигвометричного т.д.) позволит значительно сократить эту подмножество, уточнив список наиболее вероятных авторских работ. Для качественного и эффективного анализа контента при определении степени авторства конкретном автору предлагаем анализировать эталонного текста и исследуемого в несколько этапов: лингвометричний анализ коэффициентов многообразие авторской речи, стилометричний анализ, анализ устойчивых словосочетаний, лингвостатистичний анализ 3-грам. Для автоматизированной обработки текста имеет большое значение не только частота появления той или иной категории, а вообще присутствие в исследуемом тексте. Количественный подсчет позволяет сделать объективные выводы о направленности материалов по количеству употреблений единиц анализа в исследуемых текстах. Качественный анализ делает то же, но с позиции того, встречается ли вообще (и в каком контексте) определенная важная оригинальная категория
Розглянуто особливості застосування технологій лінгвостатистики для ідентифікації стилістики автора текстового контенту науково-технічного профілю. Квантитативний лінгвістичний аналіз тексту використовує переваги контент-моніторінгу на основі методів NLP для визначення та аналізу множини стопових слів, ключових слів, стійких словосполучень та дослідження N-грам. Останні використовують в методах лінгвометрії для визначення приналежності аналізованого тексту конкретному авторові у відсотках. Розроблено квантитативний метод автоматичного визначення авторства текстового контенту на основі статистичного аналізу розподілу 3-грам. Запропоновано підхід реалізації визначення автора україномовного тексту науково-технічного профілю. Отримано експериментальні результати запропонованого методу для визначення приналежності аналізованого тексту конкретному автору за наявності еталонного авторського тексту. Застосування лінгвостатистичного аналізу 3-грам до множини статей дозволить сформувати підмножину подібних за лінгвістичними характеристиками публікацій. Накладання на підмножину додаткових умов у вигляді проведення статистичних та квантитативних аналізів (множини ключових слів, стійких словосполучень, стилеметричного, лігвометричного тощо) дозволить значно скоротити цю підмножину, уточнивши список ймовірніших авторських робіт. Для якісного та ефективного аналізу контенту при визначенні ступеня авторства конкретному автору пропонуємо аналізувати еталонного тексту та досліджуваного в декілька етапів: лінгвометричний аналіз коефіцієнтів різноманіття авторського мовлення, стилометричний аналіз, аналіз стійких словосполучень, лінгвостатистичний аналіз 3-грам. Для автоматизованого опрацювання тексту має велике значення не тільки частота появи тієї чи іншої категорії, а взагалі присутність в досліджуваному тексті. Кількісний підрахунок дозволяє зробити об’єктивні висновки щодо спрямованості матеріалів за кількістю уживань одиниць аналізу в досліджуваних текстах. Якісний аналіз робить те саме, але внаслідок дослідження того, чи зустрічається (і в якому контексті) певна важлива оригінальна категорія взагалі
Databáze: OpenAIRE