THE SCIENTIFIC AND TECHNICAL PUBLICATIONS TEXT AUTHORITICATION METHOD BASED ON LINGUSTICAL ANALYSIS OF LANGUAGE DIVERSITY COEFFICIENTS

Autor: V. Vysotska
Jazyk: ukrajinština
Rok vydání: 2020
Předmět:
Stop words
Текстовий контент
NLP
контент-моніторінг
стоп-слова
контент-аналіз
статистийний лінгвістичний аналіз
квантитативна лінгвістика

business.industry
Computer science
Lexical diversity
Context (language use)
General Medicine
computer.software_genre
Part of speech
Style (sociolinguistics)
Quantitative linguistics
Identification (information)
Content analysis
Тext content
NLP
content monitoring
stop words
content analysis
statistical linguistic analysis
quantitative linguistics

Текстовый контент
NLP
контент-мониторинг
стоп-слова
контент-анализ
статистический лингвистический анализ
квантитативных лингвистика

Artificial intelligence
business
computer
Natural language processing
Zdroj: Radio Electronics, Computer Science, Control; № 1 (2020): Radio Electronics, Computer Science, Control; 108-124
Радиоэлектроника, информатика, управление; № 1 (2020): Радиоэлектроника, информатика, управление; 108-124
Радіоелектроніка, iнформатика, управління; № 1 (2020): Радіоелектроніка, інформатика, управління; 108-124
ISSN: 1607-3274
2313-688X
Popis: Актуальність. Авторифікація авторства тексту є технікою визначення автора тексту, коли неоднозначно, хто її написав. Це корисно, коли декілька людей претендують на авторство однієї публікації або у випадках, коли ніхто не претендує на авторство текстового контенту, наприклад, так звані тролі в соціальних мережах під час інформаційної війни. Складність проблеми авторського тексту, очевидно, експоненціально вища, більша кількість вірогідних авторів. Наявність авторських текстових зразків також є суттєвою при просуненні цієї проблеми. Атрибуція авторського тексту включає наступні три проблеми:– виявлення автора текстового автора з групи імовірних або очікуваних авторів, де автор завжди знаходиться у групі підозрюваних;– не ідентифікація автора текстового автора з групи вірогідних або очікуваних авторів, де автор може не бути в групі підозрюваних;– оцінка можливості даного тексту, написаного даним автором чи ні.Тому задача автоматичного визначення автора текстового контенту науково-технічного спрямування є актуальною й потребує нових (досконаліших) підходів до її розв’язування.Метою дослідження є розроблення методу визначення автора у україномовних текстах на основі технології лінгвометрії.Метод. Розробленно лінгвометричний метод алгоритмічного забезпечення процесів контент-моніторінгу для розв’язання задачі автоматичного визначення автора україномовного текстового контенту на основі технології статистичного аналізу коефіцієнтів мовної різноманітності. Проведено декомпозицію методу визначення автора на основі аналізу таких коефіцієнтів мовлення як лексична різноманітність, ступінь (міра) синтаксичної складності, зв’язність мовлення, індекси винятковості та концентрації тексту. Проаналізовані також параметри авторського стилю як кількість слів у певному тексті, загальна кількість слів цього тексту, кількість речень, кількість прийменників, кількість сполучників, кількість слів із частотою 1, та кількість слів із частотою 10 та більше. Особливостями розробленого є адаптація морфологічного та синтаксичного аналізу лексичних одиниць до особливостей конструкцій україномовних слів/текстів. Тобто при аналізі лінгвістичних одиниць типу слів, враховувалась належність до частини мови та відмінювання в межах цієї частини мови. Для цього провадився аналіз флексій цих слів для класифікації, виділення основи для формування відповідних алфавітно-частотних словників. Наповнення цих словників в подальшому враховувалися на наступних кроках визначення авторства тексту як розрахунок параметрів та коефіцієнтів авторського мовлення. Для індивідуального стилю письменника показовими є саме службові (стопові або опорні) слова, оскільки вони ніяк не пов’язані з темою і змістом публікації.Результати. Проведено порівняння результатів на множині 200 одноосібних робіт технічного спрямування біля 100 різних авторів за період 2001–2017 рр. для визначення чи змінюються і як коефіцієнти різноманітності тексту цих авторів в різні проміжки часу.Висновки. Виявлено, що для обраної експериментальної бази з понад 200 робіт найкращих результатів за критерієм щільності досягає метод аналізу статті без початкової обов’язкової інформації як анотації та ключові слова різними мовами, а також списку літератури.
Context. Authorization of the authorship of the text is a technique for determining the author of the text, when it is ambiguous who wrote it. It is useful when several people claim to be the authors of one publication or in cases where nobody claims to authorship of text content, for example, so-called trolls in social networks during an information warfare. The complexity of the problem of the author’s text, obviously, is exponentially higher, more likely authors. The presence of author’s text samples is also significant in advancing this problem. The attribution of the author’s text includes the following three problems:– author discovery of text from probable or expected authors group, where the author is always in a suspects group;– not identification of the author of a text author from a group of probable or expected authors, where the author may not be in a group of suspects;– assessment of the possibility of this text, written by the author or not.Therefore, the task of automatically determining the author of text content of scientific and technical direction is relevant and requires new (more perfect) approaches to its solution.Objective of the study is to develop a method for determining the author in Ukrainian texts based on the technology of lingometry. Method. Lingvometric method of algorithmic provision of content monitoring processes for solving the problem of automatic determination of the author of Ukrainian-language text content on the basis of technology of statistical analysis of linguistic diversity coefficients is developed. A decomposition of the method of determination of the author on the basis of analysis of such broadcasting factors as lexical diversity, degree (degree) of syntactic complexity, speech connectivity, singularity indexes and text concentrations is made. Also, author’s style parameters are analyzed as the number of words in a particular text, the total number of words in this text, the number of sentences, the number of prepositions, the number of conjunctions, the number of words with the frequency of 1, and the number of words with a frequency of 10 or more. The features of the developed is the adaptation of the morphological and syntactic analysis of lexical units to the features of the designs of Ukrainian-language words / texts. That is, in the analysis of linguistic units of the type of words, the affiliation with the part of speech and declarations within this part of the language was taken into account. To do this, an analysis of the flexion of these words was carried out for classification, the allocation of the basis for the formation of the corresponding alphabet-frequency dictionaries. The filling of these dictionaries was further taken into account in the subsequent steps of determining the authorship of the text as the calculation of parameters and coefficients of copyright broadcasting. For the individual style of a writer, it is precisely service (stop or reference) words that are indicative because they are not related to the topic and content of the publication.Results. A comparison of results on a plurality of 200 individual technical works of about 100 different authors over the period 2001–2017 has been made to determine whether the coefficients of the diversity of the text of these authors are different at different intervals.Conclusions. It has been found that for the chosen experimental base with over 200 works of the best results, the method of analysis of the article without initial obligatory information as annotations and keywords in various languages and the list of literature achieves the density criterion.
Актуальность. Авторификация авторства текста является техникой определения автора текста, когда неоднозначно, кто ее написал. Это полезно, когда несколько человек претендуют на авторство одной публикации или в случаях, когда никто не претендует на авторство текстового контента, например, так называемые тролли в социальных сетях во время информационной войны. Сложность проблемы авторского текста, очевидно, экспоненциально выше, большее количество возможных авторов. Наличие авторских текстовых образцов также является существенным при продвижении этой проблемы. Атрибуция авторского текста включает следующие три проблемы: – выявление автора текстового автора из группы возможных или ожидаемых авторов, где автор всегда находится в группе подозреваемых;– не идентификация автора текстового автора из группы возможных или ожидаемых авторов, где автор может не быть в группе подозреваемых;– оценка возможности данного текста, написанного данным автором или нет.Поэтому задача автоматического определения автора текстового контента научно-технического направления актуальна и требует новых (более совершенных) подходов к ее решению.Целью исследования является разработка метода определения автора в украиноязычных текстах на основе технологии лингвометрии.Метод. Разработано лингвометричний метод алгоритмического обеспечения процессов контент-мониторинга для решения задачи автоматического определения автора русскоязычного текстового контента на основе технологии статистического анализа коэффициентов языкового разнообразия. Проведения декомпозиции метода определения автора на основе анализа таких коэффициентов речи как лексическая разнообразие, степень (мера) синтаксической сложности, связность речи, индексы исключительности и концентрации текста. Проанализированы также параметры авторского стиля как количество слов в определенном тексте, общее количество слов этого текста, количество предложений, количество предлогов, количество союзов, количество слов с частотой 1, количество слов с частотой 10 и больше. Особенностями разработанного является адаптация морфологического и синтаксического анализа лексических единиц к особенностям конструкций украиноязычных слов / текстов. То есть при анализе лингвистических единиц типа слов, учитывалась принадлежность к части речи и склонение в пределах этой части речи. Для этого проводился анализ флексий этих слов для классификации, выделение основы для формирования соответствующих алфавитно-частотных словарей. Наполнение этих словарей в дальнейшем учитывались на следующих шагах определения авторства текста как расчет параметров и коэффициентов авторской речи. Для индивидуального стиля писателя показательны именно служебные (стоп или опорные) слова, поскольку они никак не связаны с темой и содержанием публикации.Результаты. Проведено сравнение результатов на множестве 200 самостоятельных работ технического направления около 100 различных авторов период 2001–2017 гг. Для определения меняются и как коэффициенты разнообразия текста этих авторов в разные промежутки времени.Выводы. Выявлено, что для выбранной экспериментальной базы из более 200 работ лучших результатов по критерию плотности достигает метод анализа статьи без начальной обязательной информации как аннотации и ключевые слова на разных языках, а также список литературы.
Databáze: OpenAIRE