Análisis comparativo de los métodos REPET+ y UNet para la separación de la voz cantada en una pista musical
Autor: | Ramon Zuta, Jorge Luis |
---|---|
Přispěvatelé: | Ramos Ponce, Oscar Efrain |
Jazyk: | Spanish; Castilian |
Rok vydání: | 2023 |
Předmět: | |
Zdroj: | Repositorio Institucional-Ulima Universidad de Lima |
Popis: | La separación de fuentes musicales es la tarea de aislar las frases musicales ejecutadas por diferentes instrumentos grabados individualmente y dispuestos juntos para formar una canción. A la actualidad se han desarrollados diversos métodos para abarcar la separación de fuentes musicales, los cuales se pueden clasificar en métodos supervisados y no supervisados; sin embargo, no se ha desarrollado una investigación en la cual se analice la efectividad de usar diferentes métodos en conjunto. Por este motivo, el presente trabajo busca medir los resultados de la utilización de dos métodos, REPET+ (no supervisado) y UNet (supervisado), de manera conjunta y aislada para separar las ondas musicales producidas por un cantante y las ondas provenientes de los instrumentos. Los resultados muestran un puntaje general (SDR) de los métodos para la separación vocal para la red UNet fue de 5.38 dB, REPET+ de -4.3 dB, -2.55 dB para REPET+ & UNet, y, -0.38 dB para UNet & REPET+, -6.16 dB para REPET+ & REPET+ y 5.17 dB para UNet & UNet, demostrando la superioridad de la red UNet para la separación de ondas vocales frente al método REPET+. Además, la utilización de los métodos en forma conjunta muestra una leve mejoría en ciertas métricas de evaluación; sin embargo, tomando en cuenta todas las métricas (SDR, SIR y SAR), se pone en evidencia que esto conlleva a una pérdida de información que recae en un bajo puntaje general de la solución. Music source separation is the task of isolating the musical phrases played by different instruments recorded individually and arranged together to form a song. Nowadays, several methods have been developed to cover the separation of music sources, which can be classified into supervised and unsupervised learning, however, no research has been developed in which the effectiveness of using different methods together are analyzed , that's the reason the present work seeks to measure the results of the use of two methods, REPET + (unsupervised) and UNet (supervised), jointly and in isolation to separate the music waves produced by a singer and the waves from the instruments. The results show an overall score (SDR) of the methods for vocal separation for the UNet network was 5.38 dB, REPET+ -4.3 dB, -2.55 dB for REPET+ & UNet, -0.38 dB for UNet & REPET+, -6.16 dB for REPET+ & REPET+ and 5.17 dB for UNet & UNet, demonstrating the superiority of the UNet network for the separation of vocal waves compared to the REPET+ method. In addition, the use of the methods together shows a slight improvement in certain evaluation metrics, however, considering all the metrics (SDR, SIR and SAR), it is evident that this leads to a loss of information that results in a low overall score of the solution. |
Databáze: | OpenAIRE |
Externí odkaz: |