Detección de plagio translingüe utilizando una red semántica multilingüe
Autor: | Franco Salvador, Marc |
---|---|
Jazyk: | Spanish; Castilian |
Rok vydání: | 2013 |
Předmět: |
Similitud textual
Textual similarity Cross-language plagiarism detection Máster Universitario en Inteligencia Artificial Reconocimiento de Formas e Imagen Digital-Màster Universitari en Intel·Ligència Artificial: Reconeixement de Formes i Imatge Digital Multilingual semantic network Reconeixement de Formes i Imatge Digital [Máster Universitario en Inteligencia Artificial Reconocimiento de Formas e Imagen Digital-Màster Universitari en Intel·Ligència Artificial] Knowledge graphs Red semántica multilingüe BabelNet Detección de plagio translingüe Grafos de conocimiento LENGUAJES Y SISTEMAS INFORMATICOS |
Zdroj: | RiuNet. Repositorio Institucional de la Universitat Politécnica de Valéncia instname |
Popis: | [EN] Plagiarism is defined as the unauthorized use of the original content of other authors. It is a difficult phenomenon to detect whose problem has worsened in recent years because of the Internet: a vast source of information that allows users to copy and take possession, very simply, of the original content of other authors work. Although plagiarism can be detected manually, given the large amount of content published, it is virtually impossible to carry out, even more if the source of plagiarism comes from documents in other languages. Currently, literature and science have strong interest in research and development of automatic monolingual and cross-language similarity detection systems, capable of detecting plagiarism among sections between documents. The Academic Community also benefits by such systems. It allows teachers to detect and discourage their students of the usual practice of copy and paste, without reference to its source, from original content obtained from Internet. In this thesis we describe the state-of-the-art in text plagiarism detection at monolingual and cross-language level. In addition, we study the use of a multilingual semantic network to create two cross-language plagiarism detection models: using a statistical dictionary, and using knowledge graphs as context models from document fragments. Experimental results are very promising. As future work, we define different research lines using knowledge graphs. [ES] El plagio es definido como el uso no autorizado del contenido original de la obra de otros autores. Es un fenómeno difícil de detectar cuyo problema se ha agravado en los últimos años a causa de Internet: una inmensa fuente de información que permite a los usuarios copiar y apropiarse, de forma muy sencilla, del contenido original de otros autores. Aunque el plagio se puede detectar de forma manual, dada la gran cantidad de contenidos que se publican, es una tarea prácticamente imposible de llevar a cabo, aún más si las fuentes de plagio vienen de documentos en otros idiomas. Actualmente existe un gran interés, dentro de la literatura y la ciencia, por investigar y desarrollar sistemas de detección de similitud a nivel monolingüe y translingüe que sean capaces de detectar de forma automática las secciones de plagio entre documentos. La comunidad académica también se ve beneficiada por dichos sistemas, ya que permite la detección y disuasión por parte de los profesores hacia su alumnado, de las prácticas habituales de copiar y pegar, sin referencia alguna a la fuente de procedencia, de contenidos originales obtenidos de la Web. En la presente tesis describimos el estado del arte en materia de detección de plagio textual a nivel monolingüe y translingüe. Además, se estudia la utilización de una red semántica multilingüe para crear dos modelos de detección de plagio translingüe: utilizando un diccionario estadístico, y mediante grafos de conocimiento a modo de modelos de contexto para modelar fragmentos de documento. Los resultados experimentales resultan muy prometedores. Como trabajos futuros, se definen diferentes líneas de investigación haciendo uso de grafos de conocimiento. |
Databáze: | OpenAIRE |
Externí odkaz: |