Analyse du corpus MATRICE-INA : exploration et classification automatique d'’archives audiovisuelles de 1930 à 2012

Autor: Laurent, Antoine, Guinaudeau, Camille, Roy, Anindya
Přispěvatelé: Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur (LIMSI), Université Paris Saclay (COmUE)-Centre National de la Recherche Scientifique (CNRS)-Sorbonne Université - UFR d'Ingénierie (UFR 919), Sorbonne Université (SU)-Sorbonne Université (SU)-Université Paris-Saclay-Université Paris-Sud - Paris 11 (UP11), Publications, Limsi
Jazyk: angličtina
Rok vydání: 2014
Předmět:
Zdroj: Journées d'Etude sur la Parole
Journées d'Etude sur la Parole, Jan 2014, Le Mans, France
Popis: Cet article décrit les méthodes mises en place pour permettre l’analyse d’un corpus composé de documents audiovisuels diffusés au cours des 80 dernières années : le corpus MATRICE-INA. Nous proposons une exploration des données permettant de mettre en évidence les différents thèmes et évènements abordés dans le corpus. Cette exploration consiste dans un premier temps à effectuer une analyse temporelle sur les notices documentaires produites manuellement par les documentalistes de l’Institut National de l’Audiovisuel et sur les transcriptions automatiques des documents. Puis, nous montrons, grâce à une technique de clustering automatique, que les transcriptions automatiques permettent également d’effectuer une analyse du corpus faisant émerger des thèmes cohérents avec les données traitées.
Databáze: OpenAIRE