Diseño de un sistema para la discriminación automática voz/música de señales de audio basado en vectores 'chroma'

Autor: Gómez del Campo del Bosque, Pablo
Přispěvatelé: Casajús Quirós, Francisco Javier
Rok vydání: 2018
Předmět:
Zdroj: Archivo Digital UPM
Universidad Politécnica de Madrid
Popis: La discriminación o clasificación de voz/música es muy relevante para el procesamiento de grabaciones vocales y musicales. Segmentar una transmisión de audio antes de un proceso costoso es valioso por varias razones: Por un lado, reconocer secciones de una señal que no pertenecen a la tarea en cuestión reduce el tiempo de cálculo y permite una asignación de recursos más eficiente. Además, la clasificación de audio puede purificar datos para modelos de entrenamiento más precisos y pruebas más limpias. Estos problemas son especialmente importantes cuando los datos contienen tanto voz como música, ya que ambas son señales que a menudo son difíciles de distinguir para los detectores de actividad genéricos. Existen diferentes características que se pueden tener en cuenta para la discriminación de voz/música, como por ejemplo la varianza de los cruces por cero de la señal (ZCR), la desviación estándar del valor RMS de la señal, los coeficientes cepstrales Mel, la entropía espectral, o, la característica que se pretende explotar en este trabajo, los vectores "chroma". Los vectores "chroma" son una representación de 12 elementos de la energía espectral de una señal musical que se basa en los primeros estudios sobre la percepción humana del tono. Cada elemento del vector corresponde a una de las doce notas de la escala de la música occidental. El vector "chroma" codifica y representa las relaciones armónicas dentro de una señal de música y se puede calcular fácilmente a corto plazo utilizando como base los coeficientes DFT. La secuencia resultante de vectores de croma se conoce como chromagrama (como una analogía del espectrograma). Se observarán las diferencias entre la voz y la música explotando dos características de estos vectores “chroma”, la diferenciación de “chroma” y el “chroma” de alta frecuencia, así como el método de clasificación knn. Como bases de datos se utilizará la GTZAN Music/Speech, compuesta por grabaciones de voz y de música. El entorno de aplicación es en radiodifusión y se pretende una clasificación en tiempo real de grabaciones según su contenido: voz o música. Es un trabajo a desarrollar con herramientas de alto nivel.
Databáze: OpenAIRE