Annotations en chaînes de coréférences et anaphores dans un corpus de discours spontané en français

Autor: Maurel Denis, Eshkol Iris, Antoine Jean-Yves, Schang Emmanuel, Muzerelle Judith, Boyer Aurore, Nouvel Damien
Jazyk: English<br />French
Rok vydání: 2012
Předmět:
Zdroj: SHS Web of Conferences, Vol 1, Pp 2497-2516 (2012)
Druh dokumentu: article
ISSN: 2261-2424
DOI: 10.1051/shsconf/20120100252
Popis: Cet article présente une analyse des relations anaphoriques d’un corpus de dialogue oral spontané en français. Au cours des deux dernières décennies, l’ingénierie des langues a connu des avancées spectaculaires qui ont permis l’émergence de nombreuses applications opérationnelles destinées aussi bien au grand public qu’aux professionnels. Parmi ces technologies langagières, la recherche d’information et l’indexation de documents constituent sans nul doute un des champs applicatifs promis à un bel avenir. En effet, la croissance exponentielle des ressources textuelles ou multimédias accessibles sur Internet nécessite la mise en place d’outils de structuration et d’interrogation automatique intelligents. Par exemple, la quasi-intégralité des articles publiés sur Internet par les quotidiens de la presse nationale ou régionale font l’objet d’une indexation automatique. L’importance de la résolution des anaphores pour les technologies langagières a conduit à l’émergence de nombreux travaux qui ont fait l’objet de campagnes d’évaluation internationales (MUC et SemEval) ou nationales (DEFT) au cours de la dernière décennie. Ces recherches ont toutefois porté majoritairement sur des documents ou des messages électroniques (langage écrit). A l’opposé, la communauté parole s’est surtout focalisée sur la problématique de l’anaphore pronominale, très présente en dialogue oral homme-machine (serveurs vocaux interactifs). La particularité de notre corpus se situe donc dans son caractère oral et dans le type des entités annotées (groupes nominaux et pronoms). Les avancées continues du traitement de la parole (reconnaissance vocale en particulier) amènent désormais les chercheurs à s’intéresser à une recherche d’information dans des flux oraux ou vidéos (émissions radio ou télédiffusées par exemple) équivalente à celle réalisée sur les documents électroniques. Dans cette perspective, il est essentiel de développer des techniques capables de traiter toutes les formes d’anaphores de l’oral spontané. Ainsi, cet article exposera plus particulièrement l’étude pilote CO2, qui a conduit à une procédure d’annotation de corpus, puis deux expériences issues du corpus annoté (l'accord en genre et en nombre, et la descriptions des définis en première mention), et enfin les travaux à venir du projet ANCOR. L’objectif de celui-ci est d’évaluer la pertinence et de modéliser les processus de résolution de ces anaphores complexes en discours spontané. Le corpus du projet ANCOR sera, à terme, le plus volumineux corpus de français parlé annoté en anaphores.
Databáze: Directory of Open Access Journals