Linguistic instruments of detecting criminalized text information of Web content

Jazyk: ruština
Rok vydání: 2018
Předmět:
Popis: В работе рассматриваются виды криминально окрашенной текстовой информации Web-контента (киберпреступность, террористический акт или финансовое мошенничество) и анализируются существующие технологии лингвистического анализа, позволяющие выявлять противоправную информацию в текстах. Проводится аналитический обзор использования существующих инструментов обработки языка, позволяющий выявить проблемы использования традиционных подходов NLP для анализа криминально значимой текстовой информации. Предлагаемый метод базируется на подходах Information Extraction и фокусируется на методе извлечения фактов из cлабоструктурированных текстов. Рассматривается использование технологии, базирующейся на описании семантических функций средствами алгебры конечных предикатов, для извлечения слабоструктурированных фактов из предложений русского и английского языков. Анализируется возможность использования предложенной технологии для текстов казахского языка. The paper deals with types of criminally colored textual information of Web content (cybercrime, terrorist act or financial fraud) and analyzes existing technologies of linguistic analysis that allow to identify illegal information in texts. An analytical review of the use of existing language processing tools is conducted, which allows to identify problems of using traditional NLP approaches for the analysis of criminal-significant textual information. The proposed approach is based on the approaches of Information Extraction and focuses on the method of extracting facts from weakly structured texts. The use of technology based on the description of semantic functions by means of algebra of finite predicates is considered, to extract weakly structured facts from sentences of Russian and English. The possibility of using the proposed technology for the analysis of the Kazakh language texts is analyzed.
Databáze: OpenAIRE