Traducció automàtica de la parla : creació i avaluació de sis motors de TAE

Autor: Jiménez Molina, Noelia, Universitat Autònoma de Barcelona. Facultat de Traducció i d'Interpretació
Přispěvatelé: Sánchez Gijón, María Pilar
Rok vydání: 2020
Předmět:
Zdroj: Dipòsit Digital de Documents de la UAB
Universitat Autònoma de Barcelona
Popis: La traducció automàtica (TA) ha millorat notablement aquests darrers anys. No obstant això, la traducció de la parla i el processament del llenguatge natural encara són un desafiament per als sistemes de TA. Aquest treball sorgeix amb la motivació d'aportar una possible solució a la manca de naturalitat de la traducció automàtica per veu. La hipòtesi és que es pot millorar l'oralitat de les traduccions mitjançant corpus orals transcrits i optimitzacions en l'entrenament dels sistemes de TA. Per demostrar aquesta hipòtesi, es creen amb KantanMT (després d'haver provat amb MTradumàtica) sis motors de traducció automàtica estadística entrenats amb diferents corpus orals transcrits i escrits per després, evaluar-los. La traducción automática (TA) ha mejorado notablemente en los últimos años; sin embargo, la traducción del habla y el procesamiento del lenguaje natural siguen siendo todo un reto para los sistemas de TA. Este trabajo surge con la motivación de aportar una posible solución a la falta de naturalidad en la traducción automática del habla. Se parte de la hipótesis de que se puede mejorar la oralidad de las traducciones introduciendo corpus orales transcritos y optimizaciones en el entrenamiento de los sistemas de TA. Para probar esta hipótesis, se crean con KantanMT -tras probar MTradumàtica- seis motores de traducción automática estadística entrenados con distintos corpus orales transcritos y escritos y, después, se evalúan. Machine Translation (MT) has been greatly improved in recent years. Nevertheless, Spoken Language Translation (SLT) and natural language processing remain a major challenge for MT engines. The purpose of this work is to provide a possible solution to the lack of naturalness in SLT. The work is based on the hypothesis that it is possible to improve the orality of translations by introducing transcribed oral corpus and optimizations in the training process of MT systems. To test this hypothesis, six statistical machine translation engines, trained with different transcribed oral and written corpora, were created with KantanMT, after trying MTradumàtica, and then evaluated.
Databáze: OpenAIRE