Parallel areas detection in multi-documents for multilingual alignment

Autor: Lecluze, Charlotte, Brixtel, Romain, Rigouste, Loïs, Giguet, Emmanuel, Clouard, Régis, Lejeune, Gaël, Constant, Patrick
Přispěvatelé: Référent, Greyc, Equipe Hultech - Laboratoire GREYC - UMR6072, Groupe de Recherche en Informatique, Image et Instrumentation de Caen (GREYC), Centre National de la Recherche Scientifique (CNRS)-École Nationale Supérieure d'Ingénieurs de Caen (ENSICAEN), Normandie Université (NU)-Normandie Université (NU)-Université de Caen Normandie (UNICAEN), Normandie Université (NU)-Centre National de la Recherche Scientifique (CNRS)-École Nationale Supérieure d'Ingénieurs de Caen (ENSICAEN), Normandie Université (NU), Pertimm, Equipe Image - Laboratoire GREYC - UMR6072
Jazyk: francouzština
Rok vydání: 2013
Předmět:
Zdroj: 20ème conférence du Traitement Automatique du Langage Naturel 2013 (TALN 2013)
20ème conférence du Traitement Automatique du Langage Naturel 2013 (TALN 2013), Jun 2013, Sables d'Olonne, France
Popis: This article broaches a central issue of the automatic alignment : diagnosing the parallelism ofdocuments. Previous research was concentrated on the analysis of documents which are parallelby nature such as corpus of regulations, technical documents or simple sentences. Inversions anddeletions/additions phenomena that may exist between different versions of a document hasoften been overlooked. To the contrary, we propose a method to diagnose in context the parallelareas allowing the detection of deletions or inversions between documents to align. This originalmethod is based on the freeing from word and sentence as well as the consideration of the textformatting. The implementation is based on the detection of repeated character strings and theidentification of parallel segments by image processing.
Cet article aborde une question centrale de l’alignement automatique, celle du diagnosticde parallélisme des documents à aligner. Les recherches en la matière se sont jusqu’alorsconcentrées sur l’analyse de documents parallèles par nature : corpus de textes réglementaires,documents techniques ou phrases isolées. Les phénomènes d’inversions et de suppressions/ajoutspouvant exister entre les différentes versions d’un document sont ainsi souvent ignorées. Nousproposons donc une méthode pour diagnostiquer en contexte des zones parallèles à l’intérieurdes documents. Cette méthode permet la détection d’inversions ou de suppressions entre lesdocuments à aligner. Elle repose sur l’affranchissement de la notion de mot et de phrase, ainsique sur la prise en compte de la Mise en Forme Matérielle du texte (MFM). Sa mise en oeuvre estbasée sur des similitudes de répartition de chaînes de caractères répétées dans les différentsdocuments. Ces répartitions sont représentées sous forme de matrices et l’identification deszones parallèles est effectuée à l’aide de méthodes de traitement d’image.
Databáze: OpenAIRE