Garsyno LIEPA atpažinimo su Kaldi paketu naudojant giliuosius neuroninius tinklus sistemos sukūrimas ir tyrimas
Autor: | Anglickis, Domantas |
---|---|
Přispěvatelé: | Ratkevičius, Kastytis |
Jazyk: | litevština |
Rok vydání: | 2022 |
Předmět: | |
Popis: | Šiame magistro baigiamajame darbe, su Kaldi šnekos atpažinimo programiniu paketu, naudojant giliuosius neuroninius tinklus, sukuriama ir tiriama lietuviško garsyno Liepa atpažinimo sistema. Apžvelgiamas automatinių šnekos atpažinimo sistemų veikimas, giliųjų neuroninių tinklų taikymas automatinėse šnekos atpažinimo sistemose, programinio paketo Kaldi funkcionalumas, lietuviškas garsynas Liepa ir susiję moksliniai tyrimai. Pateikiama hibridinės automatinės šnekos atpažinimo sistemos, sudarytos iš paslėptų Markovo modelių, Gauso mišinių modelių ir giliųjų neuroninių tinklų, struktūra ir metodinis aprašas. Atliekamas modelio, su giliaisiais neuroniniais tinklais, tikslumo priklausomybės patikrinimas, nuo paslėptų Markovo modelių ir Gauso mišinių modelių parametrų. Išbandoma 18 skirtingų neuroninio tinklo architektūrų, sudarytų iš laiko vėlinimo neuroninių tinklų, ilgos trumpalaikės atminties neuroninių tinklų ir dvikryptės ilgos trumpalaikės atminties neuroninių tinklų kombinacijų. Atliekamas pasirinktos neuroninio tinklo architektūros mokymo parametrų optimizavimas ir kryžminė patikra. Pateikiami gauti rezultatai ir išvados. In this master's thesis, automatic speech recognition system for Lithuanian speech corpus Liepa is created and investigated, using Kaldi speech recognition toolkit and deep neural networks. The operation of automatic speech recognition systems, application of deep neural networks in automatic speech recognition systems, functionality of the software package Kaldi, Lithuanian speech corpus Liepa and related research works are reviewed. The structure and methodological description of a hybrid automatic speech recognition system consisting of hidden Markov models, Gaussian mixture models, and deep neural networks are presented. The dependence of the accuracy of the model with deep neural networks on the parameters of the hidden Markov models and Gaussian mixture models is checked. 18 different neural network architectures consisting of combinations of time delay neural networks, long short-term memory neural networks, and bidirectional long short-term neural networks are tested. Optimization and cross-validation of training parameters of the selected neural network architecture is performed. The obtained results and conclusions are presented. |
Databáze: | OpenAIRE |
Externí odkaz: |