Extraction automatique de traductions anglaises de mots composés français
Autor: | Constant, Mathieu, Nakamura, Takuya, Voyatzi, Stavroula, Bittar, André |
---|---|
Přispěvatelé: | Université Paris-Est (UPE), Laboratoire d'Informatique Gaspard-Monge (LIGM), Université Paris-Est Marne-la-Vallée (UPEM)-École des Ponts ParisTech (ENPC)-ESIEE Paris-Fédération de Recherche Bézout-Centre National de la Recherche Scientifique (CNRS), Analyse Linguistique Profonde à Grande Echelle, Large-scale deep linguistic processing (ALPAGE), Inria Paris-Rocquencourt, Institut National de Recherche en Informatique et en Automatique (Inria)-Institut National de Recherche en Informatique et en Automatique (Inria)-Université Paris Diderot - Paris 7 (UPD7), Centre National de la Recherche Scientifique (CNRS)-Fédération de Recherche Bézout-ESIEE Paris-École des Ponts ParisTech (ENPC)-Université Paris-Est Marne-la-Vallée (UPEM) |
Jazyk: | francouzština |
Rok vydání: | 2010 |
Předmět: | |
Zdroj: | Congrés Mondial de la Linguistique Française Congrés Mondial de la Linguistique Française, Jul 2010, Nouvelle-Orléans, États-Unis. ⟨10.1051/cmlf/2010255⟩ |
DOI: | 10.1051/cmlf/2010255⟩ |
Popis: | International audience; La traduction des expressions multi-mots pose de sérieux problèmes du fait de leurs contraintes syntaxiques et sémantiques. Par ailleurs, bien qu’elles soient très présentes dans les textes, la fréquence des expressions multi-mots prises individuellement est relativement faible ce qui cause des difficultés statistiques pour extraire les traductions. Dans notre article, nous traitons uniquement les mots composés, séquences de mots contigus non-compositionnelles, qui sont présentes dans le dictionnaire DELACF. Nous confrontons les méthodes utilisées pour les collocations aux mots composés. Etant donné un mot composé identifié dans une phrase en français d’un corpus parallèle, le but est d’extraire automatiquement la traduction du mot composé dans la phrase correspondante en anglais, si elle existe, en tenant compte du fait qu’elle n’est pas forcément un mot composé anglais. Ce balisage permet d'extraire du corpus un ensemble de traductions et ainsi initier la création d'une ressource bilingue. Les mots composés que nous traitons appartiennent à quatre catégories : les noms, les adverbes, les conjonctions et les prépositions. Nous nous basons sur les études réalisées sur l’extraction statistique des traductions de collocations. Celles-ci se fondent sur les modèles probabilistes IBM d’alignement ou sur des mesures d’association. |
Databáze: | OpenAIRE |
Externí odkaz: |