Methods for Automated Comparative Analysis of Texts when Detecting Signs of Plagiarism in Expert Case Examinations of Сopyright and Related Rights Infringement
Autor: | Polina Belova |
---|---|
Rok vydání: | 2023 |
Předmět: | |
Zdroj: | Юрислингвистика; № 27(38) (2023): Юрислингвистика; 94-98 Legal Linguistics; No 27(38) (2023): Юрислингвистика; 94-98 |
ISSN: | 2587-9332 |
DOI: | 10.14258/leglin(2023)2717 |
Popis: | Within the framework of linguistic expertise on cases of copyright and related rights infringement experts are increasingly faced with the challenge of comparing several texts and searching for full-text, partial and other (lexical, grammatical, semantic, etc.) coincidences in them, as well as determining the values of these coincidences. Comparing documents manually takes a lot of time, especially if the research materials are multi-page texts. This article suggests possible ways to automate and improve this work by using special online document comparison tools: "Copyscape", "Embedika Compare", "Draftable Online", "Compare texts", "Copyleaks Text Compare Tool". The given list of tools for comparing texts is compiled by the article author based on the experience of using them in expert practice. For each of the services, the article indicates its advantages and disadvantages, as well as describes the algorithm of operation and features of the presentation of comparison results. Some tools have simple functionality and display how many words matched, show the percentage of uniqueness of the compared texts, others have more advanced comparison analytics and, in addition to the percentage of matches and the number of identical words, determine the types of similarities of text fragments, highlighting among them identical (full-text), similar (with minimal changes) and paraphrased. Nevertheless, the obtained results of comparing text files still require their expert verification and further linguistic research with the interpretation of the established coincidences and the definition of their type, especially with regard to lexical, grammatical, semantic, syntactic coincidences. В рамках лингвистической экспертизы по делам о нарушении авторских и смежных прав в отношении речевых произведений перед экспертами все чаще ставится вопрос о сравнении нескольких текстов и поиске в них полнотекстовых, частичных и иных (лексических, грамматических, семантических и пр.) совпадений, а также об определении величины данных совпадений. Сравнение документов вручную, как правило, занимает много времени, особенно если материалами исследования выступают многостраничные тексты. В данной статье предложены возможные пути автоматизации и усовершенствования этой работы путем использования специальных онлайн-сервисов сравнения документов: Copyscape, Embedika Compare, Draftable Online, «Сравнить тексты», Copyleaks Text Compare Tool. Приведенный перечень инструментов для сравнения текстов составлен автором статьи исходя из опыта их использования в экспертной практике. Для каждого из сервисов в статье указаны его достоинства и недостатки, а также описаны алгоритм работы и особенности представления результатов сравнения. Одни инструменты обладают простым функционалом и отображают, сколько слов совпало, показывают процент уникальности сравниваемых текстов, другие имеют более продвинутую аналитику сравнения и помимо процента совпадений и количества одинаковых слов определяют типы сходств фрагментов текста, выделяя среди них идентичные (полнотекстовые), похожие (с минимальными изменениями) и перефразированные. Тем не менее, полученные результаты сравнения текстовых файлов все равно требуют от эксперта их проверки и проведения дальнейшего лингвистического исследования с интерпретацией установленных совпадений и определением их типа, особенно это касается лексических, грамматических, семантических, синтаксических совпадений. |
Databáze: | OpenAIRE |
Externí odkaz: |