Identificación de usos medicinales de plantas utilizando información sintáctica y semántica

Autor: Oscar Pérez-Sánchez
Přispěvatelé: MANUEL MONTES Y GOMEZ, LUIS VILLASEÑOR PINEDA
Jazyk: Spanish; Castilian
Rok vydání: 2017
Předmět:
Zdroj: Instituto Nacional de Astrofísica, Óptica y Electrónica
INAOE
Repositorio Institucional del INAOE
Popis: In Mexico and all over the world, plants have been used to treat diseases and discomforts. In these days it is possible to find information related to medicinal plants thanks to the growth of the internet. By finding this information in the form of text, we may ask whether it is possible to automatically identify sentences that describe a medicinal use using natural language processing techniques (NLP)?. The main issue is to find the way to relate the sentences that describe a medicinal use of those that do not. Using NLP techniques will exploit the syntactic and semantic information extracted from the original source to discover relations that are not detected superficially. Since the purpose is to identify a medicinal use that can be found in the sentences that compose the text, the task can be seen as a task of short texts classification. The main characteristic of these tasks is work with small portions of text, in this case sentences that do not exceed 30 words. The main approach is to enrich the few information available with information that allows to discover relations between sentences that can not be detected with the original data. For the previous reason, this thesis addresses the task of automatic identification of medicinal uses of plants using syntactic and semantic information. We propose a method that obtains syntactic and semantic information of the sentences to relate those that describe a medicinal use. The syntactic information is commonly used in stylistic tasks such as the identi fication of an author by his written documents, for this task it is considered that the structure of a sentence that describes a medicinal use can provide information that allows to differentiate it from another sentences. part of the speech trigrams were used to identify patterns used in sentences that describe uses, especially medicinal ones. On the other hand the semantic information has been used in tasks related to categories, like differentiating between sports or political news. In this case the sentences of interest belong to the medical domain, so enriching the sentences with words related to this domain may be useful for this classiffcation. In order to obtain the semantic information, the BabelNet semantic resource was used, with this, we want to relate words of the sentences by generalization to their direct hyperonym. Experiments were performed with each of the representations separately and by combinations of these. En México y en todo el mundo se han utilizado a las plantas para combatir enfermedades y malestares. En estos días es posible encontrar esta información gracias al crecimiento de Internet. Al encontrarse la información en forma de texto ¿es posible identificar automáticamente oraciones que describan un uso medicinal mediante técnicas de procesamiento del lenguaje natural (PLN)?. El principal reto a superar es encontrar la forma de relacionar las oraciones que describan un uso medicinal de aquellas que no lo hacen. Utilizando técnicas de PLN se sugiere explotar información sintáctica y semántica extraída de la fuente original para descubrir relaciones que no se detectan de manera superficial. Ya que el propósito es identificar un uso medicinal que puede ser encontrado en oraciones que componen al texto, la tarea puede ser vista como una tarea de clasificación de textos cortos. La principal característica de esta tarea consiste en trabajar con pequeñas porciones de texto, en este caso oraciones que no superan las 30 palabras. El principal enfoque consiste en enriquecer la poca información disponible con información que permita descubrir relaciones entre las oraciones que no pueden ser detectadas con la información original. Por el motivo anterior en esta tesis se aborda la tarea de identificación automática de usos medicinales de plantas utilizando información sintáctica y semántica. Se propone un método que obtenga información sintáctica y semántica de las oraciones para poder relacionar aquellas oraciones que describan un uso medicinal de aquellas que no lo hacen. La información sintáctica comúnmente es utilizada en tareas de estilo tal como la identificación de un autor por sus documentos escritos, En esta tesis se considera que la estructura de una oración que describe un uso medicinal puede aportar información que permita diferenciarla de oraciones donde no lo hacen, para ello se utilizaron trigramas de etiquetas de parte del habla para identificar patrones utilizados en las oraciones que describen usos, especialmente los medicinales. Por otro lado la información semántica se ha utilizado en tareas relacionadas a categorías, como diferenciar entre noticias de deportes o finanzas. En este caso las oraciones de interés pertenecen al dominio medico, por lo cual el enriquecer las oraciones con palabras relacionadas a este dominio puede ser útil para esta clasificación.
Databáze: OpenAIRE