Constitution et traitement d’un corpus bilingue d’articles scientifiques

Autor: Olivier Kraif
Rok vydání: 2020
Zdroj: Lexique(s) et genre(s) textuel(s) : approches sur corpus
Popis: Nous présentons dans cet article un outil dédié à la constitution de corpus parallèles alignés constitués à partir de l’aspiration de sources sur le Web. Nous montrons comment cet outil a permis de constituer un corpus aligné anglais-français pour un type de texte difficile à trouver en version bilingue, à savoir les articles scientifiques. Moyennant l’élaboration de chaînes de traitement basées sur l’écriture d’expressions régulières (dédiées à la définition des urls à aligner et à l’extraction des contenus) nous avons pu constituer, lors d’une première campagne, un corpus parallèle d’environ 4 millions de mots dans chaque langue, formaté en XML-TEI et TMX.
Databáze: OpenAIRE