A Multilingual Multi-domain Data-to-Text Natural Language Generation Approach

Autor: Barros, Cristina, Lloret, Elena
Přispěvatelé: Universidad de Alicante. Departamento de Lenguajes y Sistemas Informáticos, Procesamiento del Lenguaje y Sistemas de Información (GPLSI)
Rok vydání: 2017
Předmět:
Zdroj: RUA. Repositorio Institucional de la Universidad de Alicante
Universidad de Alicante (UA)
ISSN: 2015-6510
Popis: La investigación en enfoques multidominio innovadores y flexibles puede ser un paso significativo en el área de Generación del Lenguaje Natural. En este sentido, el objetivo de este artículo es presentar un enfoque estadístico centrado en la fase de realización. Este enfoque permite la generación de oraciones que cumplan un propósito dado por una “característica semilla” de entrada, la cual se encargará de guiar el proceso de generación. Este enfoque ha sido probado en el ámbito de generar automáticamente oraciones que expresan opiniones para reseñas de películas y, además, el enfoque también ha sido probado en el ámbito de generación del lenguaje para tecnologías de apoyo a problemas relacionados con el lenguaje. Dados los resultados obtenidos, este enfoque es capaz de generar oraciones para dos dominios diferentes con un rendimiento similar en dos idiomas diferentes, obteniendo buenos resultados y cumpliendo los requisitos especificados para cada dominio. Research in innovative and flexible multi-domain approaches may be a significant step forward in the area of Natural Language Generation. In light of this, the aim of this paper is to present a statistical approach focused on the surface realisation stage. This approach allows the generation of sentences oriented to meet the purpose given by an specific input seed feature, that will guide all the generation process. Our approach was tested to automatically generate opinionated sentences in the domain of movie reviews and was also tested in the domain of Natural Language Generation for assistive technologies. Based on the results obtained, the approach has proved to be able to generate sentences in two different domains with similar performance and for two different languages, obtaining good results and fulfilling the requirements specified for each domain, which opens the door to be applied in new domains and applications. This research work has been funded by the University of Alicante, Generalitat Valenciana, Spanish Government and the European Commission through the projects PROMETEOII/2014/001, TIN2015-65100-R and TIN2015-65136-C2-2-R, respectively.
Databáze: OpenAIRE