Validació i classificació d'àudio del projecte 'Common Voice'

Autor: Ramírez Martí, Carla
Přispěvatelé: Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Esquerra Llucià, Ignasi
Jazyk: Catalan; Valencian
Rok vydání: 2022
Předmět:
Zdroj: UPCommons. Portal del coneixement obert de la UPC
Universitat Politècnica de Catalunya (UPC)
Popis: Common Voice és un projecte que convida a la gent a donar la seva veu en la seva llengua materna amb el propòsit de reunir corpus de veus. Aquests corpus, disponibles en més de noranta idiomes, estan formats per una gran quantitat d’àudios curts, en els quals els usuaris es graven llegint una frase, i es poden utilitzar per millorar els sistemes de reconeixement i síntesi de parla. Precisament en català la majoria d’aquests sistemes actualment necessiten millores en els seus models i la base de dades de Common Voice pot arribar a ser de gran utilitat. Un dels seus avantatges és l'accessibilitat per a tothom, tant per la gent que vol desenvolupar sistemes de reconeixement com per la que vol proporcionar la seva veu. Per aquest motiu, aquest projecte utilitza el corpus català amb la intenció de validar-lo, intentant generar una segmentació fonètica dels àudios i posteriorment analitzant la precisió de les etiquetes, amb l’objectiu de poder contribuir en el desenvolupament de les tecnologies de la parla, a més d’adquirir coneixements sobre el funcionament de gestió de dades i entrenament de models amb xarxes neuronals. Inicialment, es pretenia processar la base de dades completa, formada per 25 GB de dades i més de 1000 hores gravades, però això requereix una gran quantitat de temps i de recursos computacionals, així que s’ha optat per seleccionar un conjunt reduït de dades i treballar a menor escala. El procediment ha sigut realitzar un alineament forçat amb els àudios i les seves transcripcions amb els programes Festival i Montreal Forced Aligner. Per aquest últim s’ha necessitat entrenar un model acústic, utilitzant el mateix corpus de Common Voice però amb diferents arxius. Finalment s’ha analitzat la precisió temporal de les etiquetes resultants, en les que s’ha vist que no eren del tot perfectes. Common Voice es un proyecto que invita a la gente a donar su voz en su lengua materna con el propósito de reunir corpus de voz. Estos corpus, disponibles en más de noventa idiomas, estan formados por una gran cantidad de audios cortos, en los que los usuarios se graban leyendo una frase, y se pueden utilizar para mejorar los sistemes de reconocimiento y síntesi del habla. Precisamente en catalán la mayoría de estos sistemas actualmente necesitan mejoras en sus models y la base de datos de Common Voice puede llegar a ser de gran utilidad. Una de sus ventajas es la accesibilidad para todo el mundo, tanto para la gente que quiere desarrollar sistemas de reconocimiento como para la que quiere proporcionar su voz. Por eso, este proyecto utiliza el corpus catalán con la intención de validarlo, intentando generar una segmentación fonética de los audios y posteriormente analizando la precisión de las etiquetas, con el objetivo de poder contribuir con el desarrollo de las tecnologías del habla, además de adquirir conocimientos sobre el funcionamiento de gestión de datos y entrenamiento de modelos con redes neuronales. Inicialmente, se pretendía procesar la base de datos completa, formada por 25 GB de datos y más de 1000 horas grabadas, pero esto requiere una gran cantidad de tiempo y de recursos computacionales, así que se ha optado por seleccionar un conjunto reducido de datos y trabajar a menor escala. El procedimiento ha sido realizar un alineamiento forzado con los audios y sus transcripciones con los programas Festival y Montreal Forced Aligner. Para este último se ha necesitado entrenar un modelo acústico, usando el mismo corpus de Common Voice pero con diferentes archivos. Finalmente se ha analizado la precisión temporal de las etiquetas resultantes, en las que se ha visto que no eran del todo perfectas. Common Voice is a project that invites people to donate their voice in their mother tongue in order to collect speech corpora. These corpora, available in more than ninety languages, consist of a large quantity of short audio files, in which users record themselves reading a sentence, and can be used to improve speech recognition and synthesis systems. In catalan, most of these systems currently need improvement in their models and the Common Voice dataset may be very helpful. One of its advantages is the accessibility for everyone, both for people who want to develop speech recognition systems and for people who want to provide their voice data. For this reason, this project uses the catalan corpus with the purpose of validating it, generating a phonetic segmentation of the audios and subsequently analyzing the labeling precision, with the aim of being able to contribute in the development of speech technologies, as well as gaining knowledge about data management and model training. The initial idea was processing the whole dataset, consisting of 25 GB of data and more than 1000 hours of recording, but this requires a large amount of time and computing resources, so a later choice was selecting a reduced set of audios and work on a smaller scale. The procedure was performing forced alignment on the audios and their orthographic transcriptions with Festival and Montreal Forced Aligner. For the latter, the training of a new acoustic model was needed, using the same Common Voice corpus but with different files. Finally the accuracy of the labels was analyzed, but the results showed that they were not entirely accurate.
Databáze: OpenAIRE