The Procedure of Determining Degree of Similarity between Оbjects in Linguistic Examination

Autor:	Sergey Krassa
Rok vydání:	2023
Předmět:	linguistic examination тождество текстов лингвистическая экспертиза автороведческая экспертиза similarity of texts identity of texts сходство текстов General Agricultural and Biological Sciences
Zdroj:	Юрислингвистика; № 27(38) (2023): Юрислингвистика; 106-110 Legal Linguistics; No 27(38) (2023): Юрислингвистика; 106-110
ISSN:	2587-9332
DOI:	10.14258/leglin(2023)2719
Popis:	The article describes the research procedures for determining the degree of similarity between the objects of linguistic examination. The procedure is based on the combination of qualitative and quantitative methods and the use of computer tools. The main objective of this study is to describe ways of obtaining the most reliable results, which can be verified. For carrying out of research three sets are allocated: initial object, object compared with initial, and object-construct, which includes the characteristics common for the compared sets. The objects may be interrogation protocols, texts checked for plagiarism, trademark names, newspaper publications and other. Qualitative procedures imply singling out characteristics describing objects, while quantitative procedures allow normalization of parameters identified in the objects. The extraction of characteristics is carried out by expertise, relying on the classifications accepted in linguistics. The analysis of texts with identical content is carried out by selecting identical fragments and estimating their volumes. The analysis of the similarity of trademarks is carried out on the basis of phonetic, graphic, semantic and associative parameters. The analysis of texts for possible authorship is carried out with the help of lexical, morphological and syntactic data. On the basis of the obtained numerical indicators, similarity coefficients are calculated. Characteristics that involve a selection of a yes/no answer are marked with 1 for a positive answer and zero for a negative one. Characteristics that have a numerical expression are compared using correlation coefficients and are recognized as identical when the value is 0.7 or higher. Numeric analytical procedures are generally based on the use of computer services. The numeric data obtained are represented by the coefficients of Jaccard, Sørensen, Kulczynski and Ochiai. В статье описываются исследовательские процедуры с целью определения меры сходства между объектами речеведческих экспертиз. Предлагаемая методика основывается на сочетании квалитативных и квантитативных методов, а также применении компьютерного инструментария. Основной задачей данного исследования является описание способов получения максимально надежных результатов, которые могут быть проверены другим специалистом. Для проведения исследования выделяются три множества: исходный объект (спорный текст), объект, сопоставляемый с исходным, и объект-конструкт, включающий в себя характеристики, общие для исходного и сопоставляемого множеств. В качестве объектов могут быть протоколы допроса, тексты, проверяемые на наличие плагиата, наименования товарных знаков, газетные публикации, другие речевые продукты. Квалитативные процедуры предполагают выделение характеристик, описывающих объекты, тогда как квантитативные процедуры позволяют проводить нормализацию параметров, выявленных в объектах. Выделение характеристик проводится экспертным путем, с опорой на принятые в лингвистике классификации. Анализ текстов с идентичным содержанием проводится путем выделения тождественных фрагментов и подсчета их объемов. Анализ сходства словесных наименований проводится на базе фонетических, графических, семантических и ассоциативных параметров. Анализ текстов на возможное авторство проводится с помощью лексических, морфологических и синтаксических данных. На основе полученных численных показателей проводится вычисление коэффициентов сходства. Характеристики, которые предполагают ответ «да/нет», маркируются единицей при положительном ответе и нулем при отрицательном. Характеристики, имеющие числовое значение, сопоставляются с использованием коэффициентов корреляции и признаются идентичными при значении 0,7 и выше. Проведение цифровых аналитических процедур по возможности основывается на использовании компьютерных сервисов. Полученные числовые данные представляют собой коэффициенты Жаккара, Серенсена, Кульчинского и Отиаи, среди которых первый всегда ниже трех последующих, демонстрирующих относительную стабильность.
Databáze:	OpenAIRE
Externí odkaz:	https://explore.openaire.eu/search/publication?articleId=doi_dedup___::e436b98a92faae1fe787ca3bcc3eb560 https://doi.org/10.14258/leglin(2023)2719 Zobrazit plný text záznamu