Réseaux de neurones convolutifs et paramètres musicaux pour la classification en genres

Autor: Sènac, Christine, Pellegrini, Thomas, Pinquier, Julien, Mouret, Florian
Přispěvatelé: Équipe Structuration, Analyse et MOdélisation de documents Vidéo et Audio (IRIT-SAMoVA), Institut de recherche en informatique de Toulouse (IRIT), Université Toulouse 1 Capitole (UT1), Université Fédérale Toulouse Midi-Pyrénées-Université Fédérale Toulouse Midi-Pyrénées-Université Toulouse - Jean Jaurès (UT2J)-Université Toulouse III - Paul Sabatier (UT3), Université Fédérale Toulouse Midi-Pyrénées-Centre National de la Recherche Scientifique (CNRS)-Institut National Polytechnique (Toulouse) (Toulouse INP), Université Fédérale Toulouse Midi-Pyrénées-Université Toulouse 1 Capitole (UT1), Université Fédérale Toulouse Midi-Pyrénées, Signal et Communications (IRIT-SC), Institut National Polytechnique de Toulouse - Toulouse INP (FRANCE), Centre National de la Recherche Scientifique - CNRS (FRANCE), Université Toulouse III - Paul Sabatier - UT3 (FRANCE), Université Toulouse - Jean Jaurès - UT2J (FRANCE), Université Toulouse 1 Capitole - UT1 (FRANCE)
Jazyk: francouzština
Rok vydání: 2017
Předmět:
Zdroj: Actes GRETSI 2017
XXVIe Colloque GRETSI sur le Traitement du Signal et des Images (GRETSI 2017)
XXVIe Colloque GRETSI sur le Traitement du Signal et des Images (GRETSI 2017), Sep 2017, Juan-les-pins, France. pp.1-5
Popis: National audience; Nous proposons d’utiliser des réseaux de neurones convolutifs (Convolutional Neural Networks (CNN)) pour la classification en genres musicaux. Mais contrairement à l’approche classique qui consiste à présenter un spectrogramme en entrée, nous choisissons un ensemble de paramètres musicaux selon trois dimensions musicales : la dynamique, le timbre et la tonalité. Avec une topologie de CNN appropriée, les résultats montrent que huit paramètres musicaux sont plus efficaces que 513 fréquences d’un spectrogramme et que la fusion tardive des systèmes basés sur les deux types de caractéristiques permet d’atteindre un taux de bonne classification de 91% sur le corpus GTZAN.
Databáze: OpenAIRE