Une approche hybride pour la segmentation automatique de documents juridiques

Autor: Filipo Perotto, Fadila Taleb, Eric Trupin, Maryvonne Holzem, Laurent Vercouter, Jacques Labiche, Youssouf Saidali
Přispěvatelé: Parmentier, Yannick, Morin, Emmanuel, Rosset, Sophie, Zweigenbaum, Pierre, Institut national des sciences appliquées Rouen Normandie (INSA Rouen Normandie), Institut National des Sciences Appliquées (INSA)-Normandie Université (NU), Université, Université de Rouen Normandie (UNIROUEN), Normandie Université (NU)
Jazyk: francouzština
Rok vydání: 2019
Předmět:
Zdroj: Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume II : Articles courts
26e Conférence sur le Traitement Automatique des Langues Naturelles
26e Conférence sur le Traitement Automatique des Langues Naturelles, 2019, Toulouse, France. pp.447-456
HAL
Popis: Cet article 1 propose une approche hybride pour la segmentation de documents basée sur l’agrégation de différentes solutions. Divers algorithmes de segmentation peuvent être utilisés dans le système, ce qui permet la combinaison de stratégies multiples (spécifiques au domaine, supervisées et nonsupervisées). Un ensemble de documents étiquetés, segmentés au préalable et représentatif du domaine ciblé, doit être fourni pour être utilisé comme ensemble d’entraînement pour l’apprentissage des méthodes supervisées, et aussi comme ensemble de test pour l’évaluation de la performance de chaque méthode, ce qui déterminera leur poids lors de la phase d’agrégation. L’approche proposée présente de bonnes performances dans un scénario expérimental issu d’un corpus extrait du domaine juridique.
Databáze: OpenAIRE