Terminology-aware segmentation and domain feature for the WMT19 biomedical translation task
Autor: | Marta R. Costa-jussà, Casimiro Pio Carrino, Bardia Rafieian, José A. R. Fonollosa |
---|---|
Přispěvatelé: | Universitat Politècnica de Catalunya. Doctorat en Teoria del Senyal i Comunicacions, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Universitat Politècnica de Catalunya. VEU - Grup de Tractament de la Parla |
Předmět: |
Computer science
business.industry Enginyeria biomèdica [Àrees temàtiques de la UPC] Security token computer.software_genre Data preparation Terminology Traducció automàtica Enginyeria de la telecomunicació::Processament del senyal::Processament de la parla i del senyal acústic [Àrees temàtiques de la UPC] Segmentation Enginyeria biomèdica Artificial intelligence business computer Machine translating Biomedical engineering Natural language processing Transformer (machine learning model) |
Zdroj: | Recercat. Dipósit de la Recerca de Catalunya instname UPCommons. Portal del coneixement obert de la UPC Universitat Politècnica de Catalunya (UPC) WMT (3) |
Popis: | In this work, we give a description of the TALP-UPC systems submitted for the WMT19 Biomedical Translation Task. Our proposed strategy is NMT model-independent and relies only on one ingredient, a biomedical terminology list. We first extracted such a terminology list by labelling biomedical words in our training dataset using the BabelNet API. Then, we designed a data preparation strategy to insert the terms information at a token level. Finally, we trained the Transformer model with this terms-informed data. Our best-submitted system ranked 2nd and 3rd for Spanish-English and English-Spanish translation directions, respectively. |
Databáze: | OpenAIRE |
Externí odkaz: |