Aumento de audio y compresión de modelos para clasificación de escenas acústicas

Autor: Gonzalez-Poy, Eduard Marcel
Jazyk: Spanish; Castilian
Rok vydání: 2022
Předmět:
Popis: In this project we have developed a low complexity model for acoustic scene classification; based on the challenge of task 1 of DCASE 2022, where a benchmark model to overcome is proposed. To achieve low complexity, we propose knowledge distillation with a "masterstudent" approach and subsequent quantization of the network parameters to the 8-bit integer type. The master network is based on residual convolutional networks and the student is a linear convolutional network. We present an audio data augmentation methodology, based on convolution between the original signal (of the proposed data set) and impulse responses from devices not present at the recording of the data. Our model outperforms the reference model by obtaining a log loss of 1,415, within the set complexity constraint. Este proyecto consiste en el desarrollo de un modelo de baja complejidad para clasificación de escenas acústicas; basado en el reto de la tarea 1 de DCASE 2022. Para conseguir la baja complejidad, se propone la destilación de conocimiento con una aproximación “maestroalumno” y posterior cuantificación de los parámetros de la red al tipo entero de 8 bits. La red maestro se basa en redes convolucionales residuales y, la red alumno, es una red convolucional lineal. Se propone una metodología de aumento de datos de audio basada en la convolución entre la señal original del conjunto de datos propuesto y respuestas impulsiones de dispositivos no presentes en la captura de esos datos. El modelo propuesto supera al de referencia obteniendo un log loss de 1,415, dentro de la limitación de complejidad establecida.
Databáze: OpenAIRE