Estimating Vocal Tract Resonances of Synthesized High-Pitched Vowels Using CNN
Autor: | Mikusova, Ivana |
---|---|
Jazyk: | angličtina |
Rok vydání: | 2022 |
Předmět: | |
DOI: | 10.34726/hss.2022.89401 |
Popis: | Beim Sprechen oder Singen wird ein vom Kehlkopf kommender Schall durch den Vokaltrakt gefiltert. Formanten, die Maxima des resultierenden Spektrums, bestimmen den Vokal und die Stimmfarbe. Bei Sprachfrequenzen liegen die Obert��ne der Schallquelle dicht beieinander, so dass die Maxima des Ausgangsspektrums weitgehend mit den Resonanzfrequenzen des Vokaltraktfilters ��bereinstimmen. Bei h��heren Grundfrequenzen, wie bei Gesang oder Kindersprache, werden die Maxima des Ausgangsspektrums eher durch die Lage der Obert��ne als durch die Resonanzfrequenzen bestimmt. Die ��blichen Verfahren zur Formantsch��tzung, LPC und Cepstrum, basieren auf der spektralen H��llkurve. Sie funktionieren gut bei Sprachfrequenzen, aber bei h��heren Grundfrequenzen bestimmen sie die Obert��ne statt die Resonanzfrequenzen. Informationen ��ber die Lage der Resonanzen sind jedoch immer noch im Klang vorhanden, z. B. in der Behauchung und im Vibrato. Eine Methode, die in der Lage ist, diese Informationen bei hohen Frequenzen zu erkennen, w��rde das derzeitige Fehlen einer in vivo-Ground-Truth beheben und w��re f��r Anwendungen wie das Gesangstraining, das Erlernen von Fremdsprachen oder manche Arten der Sprachtherapie, wie z. B. die Geschlechtsumwandlungstherapie, geeignet. In dieser Arbeit wurde ein konvolutionelles neuronales Netz trainiert, das 6 Resonanzen mit einem mittleren absoluten Fehler von 23 Hz bestimmen kann. Die Leistung ist im Grundfrequenzbereich von 100 Hz - 1000 Hz stabil und besser als die des von der Software Praat implementierten LPC-Algorithmus. Der Einfluss der Parameter Behauchung, Vibrato und Resonanzabstand hat sich als sehr wichtig erwiesen. Die Praxisanwendbarkeit wurde mit einem zus��tzlichen Datensatz getestet, der mit Kunststoffr��hren und einem 3D-gedruckten Vokaltraktmodell gefiltert wurde. Es wurden Empfehlungen f��r die Perfektionierung des Netzwerks formuliert, indem aufgenommene Kl��nge und verschiedene gut entworfene Parameterwerte in die Trainingsdaten einbezogen wurden. In speaking or singing, a source sound coming from the larynx is filtered by the vocal tract. Formants, the maxima of the resulting spectrum, determine the vowel and the timbre of the voice. At speech frequencies, between 100 Hz - 400 Hz, the harmonics of the source sound are spaced densely, so the peaks of the output spectrum largely correspond to the resonance frequencies of the vocal tract filter. At higher fundamental frequencies, like in singing or child speech, the peaks of the output spectrum are determined more by the location of the harmonics than of the filter resonance frequencies. Traditional formant estimation methods, LPC and cepstrum, only use information from the spectral envelope. They perform well at speech frequencies, but at higher fundamental frequencies, they are not able to find the resonance frequencies of the vocal tract and determine the harmonics instead. Information about the location of the resonances is however still present in the sound, e.g. in breathiness and vibrato. A method able to extract this information at high frequencies would solve the current lack of an in vivo ground truth and would be suitable for applications such as singing training, language learning, or various types of speech therapy, such as gender conversion therapy. In this thesis, a convolutional neural network was trained that can determine 6 resonances with mean absolute error 23 Hz. Its performance is stable in the fundamental frequency range of 100 Hz - 1000 Hz and better than that of the LPC algorithm implemented by the software Praat. The influence of the parameters breathiness, vibrato, and resonance spacing has proven to be very important. The real-life applicability was tested with an additional dataset filtered by plastic tubes and a 3D printed vocal tract model. Recommendations were formulated for perfecting the network, by incorporating recorded sounds and various well-designed parameter values in the training data. |
Databáze: | OpenAIRE |
Externí odkaz: |