Analyse du corpus MATRICE-INA : exploration et classification automatique d'archives audiovisuelles de 1930 à 2012
Autor: | Laurent, Antoine, Guinaudeau, Camille, Roy, Anindya |
---|---|
Přispěvatelé: | Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur (LIMSI), Université Paris Saclay (COmUE)-Centre National de la Recherche Scientifique (CNRS)-Sorbonne Université - UFR d'Ingénierie (UFR 919), Sorbonne Université (SU)-Sorbonne Université (SU)-Université Paris-Saclay-Université Paris-Sud - Paris 11 (UP11), Publications, Limsi |
Jazyk: | angličtina |
Rok vydání: | 2014 |
Předmět: | |
Zdroj: | Journées d'Etude sur la Parole Journées d'Etude sur la Parole, Jan 2014, Le Mans, France |
Popis: | Cet article décrit les méthodes mises en place pour permettre lanalyse dun corpus composé de documents audiovisuels diffusés au cours des 80 dernières années : le corpus MATRICE-INA. Nous proposons une exploration des données permettant de mettre en évidence les différents thèmes et évènements abordés dans le corpus. Cette exploration consiste dans un premier temps à effectuer une analyse temporelle sur les notices documentaires produites manuellement par les documentalistes de lInstitut National de lAudiovisuel et sur les transcriptions automatiques des documents. Puis, nous montrons, grâce à une technique de clustering automatique, que les transcriptions automatiques permettent également deffectuer une analyse du corpus faisant émerger des thèmes cohérents avec les données traitées. |
Databáze: | OpenAIRE |
Externí odkaz: |