Méthodes d'évaluation en extraction d'information ouverte

Autor: Lamarche, Fabrice
Jazyk: francouzština
Rok vydání: 2023
Předmět:
Druh dokumentu: Diplomová práce
Popis: L’extraction d’information ouverte (OIE) est un domaine du traitement des langues naturelles qui a pour but de présenter les informations contenues dans un texte dans un format régulier permettant d’organiser, d’analyser et de réfléchir ces informations. De nombreux systèmes d’OIE existent et sont proposés, revendiquant des performances de plus en plus proches d’un idéal. Dans les dernières années, beaucoup de ces systèmes utilisent des architectures neuronales et leurs auteurs affirment être plus performant sur cette tâche que les méthodes précédentes. Afin d’établir ces performances et de les comparer les unes aux autres, il est nécessaire d’utiliser une référence. Celles-ci ont également évolué dans le temps et se veulent précises, objectives et proches de la réalité. Dans ce mémoire, nous proposons une nouvelle référence permettant de remédier à certaines limitations potentielles des méthodes d’évaluation actuelles. Cette référence comprend deux composantes principales soit une annotations manuelles de phrases candidates et une fonction permettant d’établir la concordance syntaxique entre différents faits extraits et annotés. De plus, nous proposons de nouvelles lignes directrice pour encadrer et mieux définir la tâche d’extraction d’information ouverte elle-même, ce qui permet de mieux quantifier et mesurer la quantité d’informations pertinentes extraites par les systèmes d’OIE. Nos expériences démontrent que notre référence suit de plus près ces lignes directrices que les références précédentes, qu’elle parvient à mieux juger de la concordances entre les faits extraits et les faits annotés et qu’elle est plus souple dans son approche que la référence qui est à ce jour l’état de l’art. Notre nouvelle référence permet de tirer des conclusions intéressantes sur les performances réelles des systèmes d’extraction d'Information ouverte, notamment sur la réelle amélioration des systèmes plus récents par rapport aux méthodes classiques.
Open Information Extraction (OIE) is a field of natural language processing whose aim is to present the information contained in a text in a regular format that allows that information to be organized, analyzed and reflected upon. Numerous OIE systems exist, claiming everincreasing levels of performance. In order to establish their performance and compare them, it is necessary to use a reference. These have also evolved over time, and are intended to be precise and objective, making it possible to identify the best-performing systems. In this thesis, we identify some of the limitations of current evaluation methods and propose a new benchmark to remedy them. This new benchmark comprises two main components : a manual annotation of candidate sentences and a function to establish syntactic concordance between different extracted and annotated facts. In addition, we propose new guidelines to frame and better define the open information extraction task itself, enabling us to better quantify and measure the amount of relevant information extracted by OIE systems. Our experiment shows that our benchmark follows these guidelines more closely than previous benchmarks, is better at judging the match between extracted and annotated facts, and is more flexible than the current state-of-the-art benchmarks. Our new benchmark allows us to draw some interesting conclusions about the actual performance of open information extraction systems. We show that the latest systems are not necessarily the best.
Databáze: Networked Digital Library of Theses & Dissertations