Разработка квантитативного метода автоматического определения авторства текстового контента на основе статистического анализа распределения N-грам
Autor: | Yaroslav Pelekh, Lyudmyla Dzyubyk, Oksana Tereshchuk, Roman Kovalchuk, Nataliia Sokulska, Myroslav Komar, Vasyl Lytvyn, Victoria Vysotska, Ihor Budz |
---|---|
Jazyk: | angličtina |
Rok vydání: | 2019 |
Předmět: |
Computer science
stop-words 020209 energy 0211 other engineering and technologies Energy Engineering and Power Technology Context (language use) 02 engineering and technology computer.software_genre NLP Industrial and Manufacturing Engineering linguometry Set (abstract data type) Text processing Management of Technology and Innovation 021105 building & construction lcsh:Technology (General) 0202 electrical engineering electronic engineering information engineering content content-monitoring content-analysis statistical linguistic analysis quantitative linguistics statistical linguistics lcsh:Industry Electrical and Electronic Engineering Stop words business.industry Applied Mathematics Mechanical Engineering контент контент-мониторинг стоп-слова контент-анализ статистический лингвистический анализ квантытативная лингвистика статистическая лингвистика лингвометрия контент-моніторінг контент-аналіз статистийний лінгвістичний аналіз квантитативна лінгвістика статистична лінгвістика лінгвометрія Unit of analysis Computer Science Applications Quantitative linguistics Identification (information) Control and Systems Engineering Content analysis UDC 004.89 lcsh:T1-995 lcsh:HD2321-4730.9 Artificial intelligence business computer Natural language processing |
Zdroj: | Eastern-European Journal of Enterprise Technologies, Vol 6, Iss 2 (102), Pp 28-51 (2019) Східно-Європейський журнал передових технологій; Том 6, № 2 (102) (2019): Інформаційні технології. Системи управління в промисловості; 28-51 Восточно-Европейский журнал передовых технологий; Том 6, № 2 (102) (2019): Информационные технологии. Системы управления в промышленности; 28-51 Eastern-European Journal of Enterprise Technologies; Том 6, № 2 (102) (2019): Information technology. Industry control systems; 28-51 |
ISSN: | 1729-4061 1729-3774 |
Popis: | The peculiarities of the application of linguo-statistics technologies for the identification of the style of the author of text content of scientific and technical profile are considered. Quantitative linguistic analysis of a text uses the benefits of content monitoring based on the NLP methods to identify and analyze the set of stop words, keywords, set phrases and to study N-gram. The latter are used in the linguometry methods to determine in per cent if the given text belongs to a particular author. The quantitative method for automatic text content authorship attribution was developed based on statistical analysis of the 3-gram distribution. The approach to the implementation of identification of the author of the text in the Ukrainian language of the scientific and technical profile was proposed. Experimental results of the proposed method to determine the belonging of the analyzed text to a specific author in the presence of the reference text were obtained. Application of the linguo-statistical analysis of the 3-grams to a set of articles will make it possible to form a subset of publications that are similar in linguistic descriptions. Imposing additional conditions in the form of statistical and quantitative analyses (a set of keywords, set expressions, stylometric, linguometric analyses, etc.) on a subset will allow a significant reduction of this subset by specifying the list of the most likely author. For qualitative and effective content analysis when determining the degree of authorship of a particular author, we propose to analyze the reference text and the one under consideration at several stages: linguometric analysis of the coefficients of the diversity of the author's speech, stylometric analysis, analysis of set expressions, linguo-statistical analysis of 3-grams. For automated text processing, not only the frequency of occurrence of a certain category, but also its existence in the studied text in general are important. Quantitative computation makes it possible to draw objective conclusions about the orientation of materials by the number of using the units of analysis in the studied texts. Qualitative analysis does the same, but as a result of the study of whether (and in what context) there is a certain important original category in general Рассмотрены особенности применения технологий лингвостатистикы для идентификации стилистики автора текстового контента научно-технического профиля. Квантитативных лингвистический анализ текста использует преимущества контент-мониторинга на основе методов NLP для определения и анализа множества стоповых слов, ключевых слов, устойчивых словосочетаний и исследования N-грамм. Последние используют в методах лингвометрии для определения принадлежности анализируемого текста конкретном автору в процентах. Разработан квантитативных метод автоматического определения авторства текстового контента на основе статистического анализа распределения 3-грамм. Предложен подход реализации определения автора русскоязычного текста научно-технического профиля. Получены экспериментальные результаты предложенного метода для определения принадлежности анализируемого текста конкретном автору при наличии эталонного авторского текста. Применение лингвостатистичного анализа 3-грамм множеству статей позволит сформировать подмножество подобных по лингвистическим характеристикам публикаций. Наложение на подмножество дополнительных условий в виде проведения статистических и квантитативных анализов (множества ключевых слов, устойчивых словосочетаний, стилеметричних, лигвометричного т.д.) позволит значительно сократить эту подмножество, уточнив список наиболее вероятных авторских работ. Для качественного и эффективного анализа контента при определении степени авторства конкретном автору предлагаем анализировать эталонного текста и исследуемого в несколько этапов: лингвометричний анализ коэффициентов многообразие авторской речи, стилометричний анализ, анализ устойчивых словосочетаний, лингвостатистичний анализ 3-грам. Для автоматизированной обработки текста имеет большое значение не только частота появления той или иной категории, а вообще присутствие в исследуемом тексте. Количественный подсчет позволяет сделать объективные выводы о направленности материалов по количеству употреблений единиц анализа в исследуемых текстах. Качественный анализ делает то же, но с позиции того, встречается ли вообще (и в каком контексте) определенная важная оригинальная категория Розглянуто особливості застосування технологій лінгвостатистики для ідентифікації стилістики автора текстового контенту науково-технічного профілю. Квантитативний лінгвістичний аналіз тексту використовує переваги контент-моніторінгу на основі методів NLP для визначення та аналізу множини стопових слів, ключових слів, стійких словосполучень та дослідження N-грам. Останні використовують в методах лінгвометрії для визначення приналежності аналізованого тексту конкретному авторові у відсотках. Розроблено квантитативний метод автоматичного визначення авторства текстового контенту на основі статистичного аналізу розподілу 3-грам. Запропоновано підхід реалізації визначення автора україномовного тексту науково-технічного профілю. Отримано експериментальні результати запропонованого методу для визначення приналежності аналізованого тексту конкретному автору за наявності еталонного авторського тексту. Застосування лінгвостатистичного аналізу 3-грам до множини статей дозволить сформувати підмножину подібних за лінгвістичними характеристиками публікацій. Накладання на підмножину додаткових умов у вигляді проведення статистичних та квантитативних аналізів (множини ключових слів, стійких словосполучень, стилеметричного, лігвометричного тощо) дозволить значно скоротити цю підмножину, уточнивши список ймовірніших авторських робіт. Для якісного та ефективного аналізу контенту при визначенні ступеня авторства конкретному автору пропонуємо аналізувати еталонного тексту та досліджуваного в декілька етапів: лінгвометричний аналіз коефіцієнтів різноманіття авторського мовлення, стилометричний аналіз, аналіз стійких словосполучень, лінгвостатистичний аналіз 3-грам. Для автоматизованого опрацювання тексту має велике значення не тільки частота появи тієї чи іншої категорії, а взагалі присутність в досліджуваному тексті. Кількісний підрахунок дозволяє зробити об’єктивні висновки щодо спрямованості матеріалів за кількістю уживань одиниць аналізу в досліджуваних текстах. Якісний аналіз робить те саме, але внаслідок дослідження того, чи зустрічається (і в якому контексті) певна важлива оригінальна категорія взагалі |
Databáze: | OpenAIRE |
Externí odkaz: |