Normalización léxica de tweets en español con componentes basados en reglas y modelos de lenguaje
Autor: | Pablo Ruiz Fabo, Montse Cuadros, Thierry Etchegoyhen |
---|---|
Přispěvatelé: | Lattice - Langues, Textes, Traitements informatiques, Cognition - UMR 8094 (Lattice), Département Littératures et langage - ENS Paris (LILA), École normale supérieure - Paris (ENS Paris), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-École normale supérieure - Paris (ENS Paris), Université Paris sciences et lettres (PSL)-Université Paris sciences et lettres (PSL)-Centre National de la Recherche Scientifique (CNRS)-Université Sorbonne Paris Cité (USPC)-Université Sorbonne Nouvelle - Paris 3, VicomTech |
Jazyk: | angličtina |
Rok vydání: | 2014 |
Předmět: |
Microtext
Normalización léxica Edit distance Modelo de lenguaje edit distance Spanish Language model [INFO.INFO-CL]Computer Science [cs]/Computation and Language [cs.CL] [INFO.INFO-TT]Computer Science [cs]/Document and Text Processing Español Lenguajes y Sistemas Informáticos language model Distancia de edición lexical normalization Lexical normalization Spanish microtext Microtexto |
Zdroj: | Procesamiento del Lenguaje Natural Procesamiento del Lenguaje Natural, Sociedad Espanola para el Procesamiento del Lenguaje Natural, 2014, pp.8 RUA. Repositorio Institucional de la Universidad de Alicante Universidad de Alicante (UA) Scopus-Elsevier HAL |
ISSN: | 1135-5948 |
Popis: | This paper presents a system to normalize Spanish tweets, which uses preprocessing rules, a domain-appropriate edit-distance model, and language models to select correction candidates based on context. The system is an improvement on the tool we submitted to the Tweet-Norm 2013 shared task, and results on the task’s test-corpus are above-average. Additionally, we provide a study of the impact for tweet normalization of the different components of the system: rule-based, edit-distance based and statistical. Este artículo presenta un sistema para la normalización de tweets en español, que usa reglas de preproceso, un modelo de distancias de edición adecuado al dominio y modelos de lenguaje para seleccionar candidatos de corrección según el contexto. Se trata de un sistema mejorado basado en el que presentamos en la tarea compartida Tweet-Norm 2013. El sistema obtiene resultados superiores a la media en el corpus de test de la tarea. Presentamos además un estudio del impacto en la normalización de los diferentes componentes del sistema: basados en reglas, en distancia de edición, y estadísticos. |
Databáze: | OpenAIRE |
Externí odkaz: |