Detección automática de géneros musicales
Autor: | Lucas Rodríguez, María |
---|---|
Přispěvatelé: | García Clemente, María Isabel |
Rok vydání: | 2021 |
Předmět: | |
Zdroj: | Archivo Digital UPM Universidad Politécnica de Madrid |
Popis: | El siguiente trabajo consiste en el diseño de un sistema de reconocimiento automático de géneros musicales a partir de una muestra de audio musical. El sistema se desarrolla en el software Matlab y usa como técnica para el reconocimiento automático la inteligencia artificial. Tiene como entrada fragmentos de audio de 30 segundos de cinco géneros musicales distintos: Pop, Música Clásica, Rock, Metal y por último Reggae, todos ellos divididos en carpetas con sus correspondientes audios. Estos audios provienen de una base de datos pública llamada GTZAN Genre Collection desarrollada para estudios sobre el reconocimiento de audio y su posterior clasificación. A continuación, estos fragmentos de audio pasan por un proceso de transformación de la señal a imágenes para su posterior aprendizaje automático y profundo. Dicha transformación se realiza a partir de un framework de Matlab denominado Audio Toolbox, las imágenes resultantes se denominan espectrogramas y serán el elemento determinante para su futura lectura. Posteriormente, una vez generados los espectrogramas, se procede a diseñar, analizar y entrenar una red neuronal convolucional mediante el framework Deep Learning Toolbox. Dicho framework analiza los resultados y realiza un seguimiento de estos para que a medida que realice ese análisis, la predicción mejore y por lo tanto permita un mejor funcionamiento. Finalmente, se procede a generar unas pruebas para comprobar que es capaz de catalogar el resultado en un género musical concreto, es decir, los distintos audios que se han recibido como entrada deben ser clasificados en sus géneros musicales correspondientes.---ABSTRACT---The aim of this work is to design a system for the automatic recognition of musical genres from a musical audio sample. The system is developed in Matlab software and uses artificial intelligence as a technique for automatic recognition. The input of the system are 30-second audio fragments of five different musical genres: Pop, Classical Music, Rock, Metal and Reggae, all of them divided into folders with their corresponding audios. These audios are provided from a public database called GTZANT Genre Collection developed for studies on audio recognition and their subsequent classification. Then, these audio fragments go through a process of signal transformation into images for later automatic and deep learning. This transformation is performed from a Matlab framework called Audio Toolbox. The resulting images are called spectrograms and will be a crucial element for future reading. Subsequently, once the spectrograms have been generated, a convolutional neural network is designed, analyzed and trained using the Deep Learning Toolbox framework. This framework analyses the results and monitors them in an attempt to reach the maximum possible prediction for its best performance. Finally, we proceed to generate a script which tests the above mentioned and therefore, to classify the result in a specific musical genre, i.e., the different audios that have been received as input should be classified into their corresponding musical genres. |
Databáze: | OpenAIRE |
Externí odkaz: |