Une approche hybride pour la segmentation automatique de documents juridiques
Autor: | Filipo Perotto, Fadila Taleb, Eric Trupin, Maryvonne Holzem, Laurent Vercouter, Jacques Labiche, Youssouf Saidali |
---|---|
Přispěvatelé: | Parmentier, Yannick, Morin, Emmanuel, Rosset, Sophie, Zweigenbaum, Pierre, Institut national des sciences appliquées Rouen Normandie (INSA Rouen Normandie), Institut National des Sciences Appliquées (INSA)-Normandie Université (NU), Université, Université de Rouen Normandie (UNIROUEN), Normandie Université (NU) |
Jazyk: | francouzština |
Rok vydání: | 2019 |
Předmět: | |
Zdroj: | Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume II : Articles courts 26e Conférence sur le Traitement Automatique des Langues Naturelles 26e Conférence sur le Traitement Automatique des Langues Naturelles, 2019, Toulouse, France. pp.447-456 HAL |
Popis: | Cet article 1 propose une approche hybride pour la segmentation de documents basée sur l’agrégation de différentes solutions. Divers algorithmes de segmentation peuvent être utilisés dans le système, ce qui permet la combinaison de stratégies multiples (spécifiques au domaine, supervisées et nonsupervisées). Un ensemble de documents étiquetés, segmentés au préalable et représentatif du domaine ciblé, doit être fourni pour être utilisé comme ensemble d’entraînement pour l’apprentissage des méthodes supervisées, et aussi comme ensemble de test pour l’évaluation de la performance de chaque méthode, ce qui déterminera leur poids lors de la phase d’agrégation. L’approche proposée présente de bonnes performances dans un scénario expérimental issu d’un corpus extrait du domaine juridique. |
Databáze: | OpenAIRE |
Externí odkaz: |