An Empirical Analysis of Data Selection Techniques in Statistical Machine Translation
Autor: | Chinea Ríos, Mara, Sanchis Trilles, Germán, Casacuberta Nolla, Francisco |
---|---|
Jazyk: | angličtina |
Rok vydání: | 2015 |
Předmět: |
Domain adaptation
Statistical machine translation Entropía cruzada Bilingual sentence selection Selección de frases bilingües Statistical machine translation domain adaptation bilingual sentence selection infrequent n-gram cross-entropy Infrequent n-gram Lenguajes y Sistemas Informáticos Cross-entropy Adaptación dominios LENGUAJES Y SISTEMAS INFORMATICOS Traducción automática estadística n-gramas infrecuentes N-gramas infrecuentes |
Zdroj: | RiuNet. Repositorio Institucional de la Universitat Politécnica de Valéncia instname RUA. Repositorio Institucional de la Universidad de Alicante Universidad de Alicante (UA) |
Popis: | [EN] Domain adaptation has recently gained interest in statistical machine translation. One of the adaptation techniques is based in the selection data. Data selection aims to select the best subset of the bilingual sentences from an available pool of sentences, with which to train a SMT system. In this paper, we study how affect the bilingual corpora used for the data selection methods in the translation quality [ES] La adaptación de dominios genera mucho interés dentro de la traducción automática estadística. Una de las técnicas de adaptaciión esta basada en la selecciión de datos que tiene como objetivo seleccionar el mejor subconjunto de oraciones bilingües de un gran conjunto de oraciones. En este artículo estudiamos como afectan los corpus bilingües empleados por los métodos de selección de frases en la calidad de las traducciones. The research leading to these results has received funding from the European Union Seventh Framework Programme (FP7/2007-2013) under grant agreement No. 287576 (CasMaCat). Also funded by the Generalitat Valenciana under grant Prometeo/2009/014. |
Databáze: | OpenAIRE |
Externí odkaz: |