Uso de representaciones vectoriales de las palabras para la detección de dobles sentidos (puns)
Autor: | Carrasco Gómez, Pascual Andrés |
---|---|
Jazyk: | Spanish; Castilian |
Rok vydání: | 2017 |
Předmět: |
Joc de paraules
Polisemia Reconeixement de Formes i Imatge Digital [Máster Universitario en Inteligencia Artificial Reconocimiento de Formas e Imagen Digital-Màster Universitari en Intel·Ligència Artificial] WordNet Lenguaje natural Desambiguació semàntica Puns Polisèmia Wordplay Embeddings Llenguatge natural Juego de palabras Natural language Máster Universitario en Inteligencia Artificial Reconocimiento de Formas e Imagen Digital-Màster Universitari en Intel·Ligència Artificial: Reconeixement de Formes i Imatge Digital Semantic disambiguation WSD LENGUAJES Y SISTEMAS INFORMATICOS Polysemy Desambiguación semántica |
Zdroj: | RiuNet. Repositorio Institucional de la Universitat Politécnica de Valéncia instname |
Popis: | Semantic disambiguation or the understanding of natural language are areas within the natural language processing that although they have been widely studied, continue to pose a major challenge. Traditional approaches to semantic disambiguation lie on the assumption that there is a unique and unequivocal semantic underlying each word in a sentence. However, there is a class of constructions in language known as puns, in which lexical-semantic ambiguity is a sought-after effect in the sentence. That is, the speaker or writer pretends that a particular word or other lexical element is interpreted simultaneously with two or more different meanings. In this project we propose to approach the location and disambiguation of double meaning words (puns) in a set of sentences. To do this we will use different vector representations of words obtained from different corpus, and different metrics of similarity will be studied. The data sets belong to the Semeval 2017 international competition and the results can be compared with those published by the competition. La desambiguación semántica o la comprensión del lenguaje natural son ámbitos dentro del procesamiento del lenguaje natural que aunque han sido ampliamente estudiados, siguen suponiendo un reto importante. Los enfoques tradicionales de la desambiguación semántica descansan en la suposición de que existe una única e inequívoca semántica subyacente a cada palabra en una oración. Sin embargo, existe una clase de construcciones en el lenguaje conocidas como juegos de palabras (puns), en los que la ambigüedad léxico-semántica es un efecto buscado en la oración. Es decir, el hablante o escritor pretende que una determinada palabra u otro elemento léxico sea interpretado simultáneamente con dos o más significados distintos. En este proyecto proponemos abordar la localización y desambiguación de palabras con doble sentido (puns) en una serie de oraciones. Para ello usaremos diferentes representaciones vectoriales de las palabras obtenidas a partir de diferentes corpus, y se estudiarán diferentes métricas de similitud. Los conjuntos de datos pertenecen a la competición internacional Semeval 2017 y los resultados se podrán contrastar con los publicados por la competición. [CA] La desambiguació semàntica o la comprensió del llenguatge natural són àmbits dins del processament del llenguatge natural que encara que han estat àmpliament estudiats, segueixen suposant un repte important. Els enfocaments tradicionals de la desambiguació semàntica descansen en la suposició que hi ha una única e inequívoca semàntica subjacent a cada paraula en una oració. No obstant això, hi ha una classe de construccions en el llenguatge conegudes com jocs de paraules (puns), en els quals l’ambigüitat lexicosemàntica és un efecte buscat en l’oració. És a dir, el parlant o escriptor pretén que una determinada paraula o un altre element lèxic sigui interpretat simultàniament amb dos o més significats diferents. En aquest projecte proposem abordar la localització i desambiguació de paraules amb doble sentit (puns) en una sèrie d’oracions. Per a això farem servir diferents representacions vectorials de les paraules obtingudes a partir de diferents corpus, i s’estudiaran diferents mètriques de similitud. Els conjunts de dades pertanyen a la competició internacional Semeval 2017 i els resultats es podran contrastar amb les publicades per la competició. |
Databáze: | OpenAIRE |
Externí odkaz: |