Text to speech using deep learning

Autor:	Džijan, Matej
Přispěvatelé:	Grbić, Ratko
Jazyk:	chorvatština
Rok vydání:	2020
Předmět:	TEHNIČKE ZNANOSTI. Računarstvo. Umjetna inteligencija speech synthesis sinteza govora Tacotron 2 deep learning duboko učenje TECHNICAL SCIENCES. Computing. Artificial Intelligence
Popis:	Ovaj diplomski rad se bavi problematikom sinteze govora iz teksta. Cilj rada bio je realizirati model za sintezu govora iz teksta za hrvatski jezik. Za početak je dana osnovna terminologija ovog područja. Nakon toga su uspoređena neka od postojećih rješenja za problem sinteze govora iz teksta. Zadatak ovog diplomskog rada riješen je korištenjem modela Tacotron 2, koji je detaljno objašnjen. Za potrebe učenja, prvo je izrađen podatkovni skup sastavljen od pročitanih rečenica na hrvatskom jeziku s pripadajućim transkriptom. Nakon izrade podatkovnog skupa, model je prilagođen za hrvatski jezik. Model je treniran na predtreniranom modelu za engleski jezik što je uvelike ubrzalo i olakšalo treniranje. Nakon treniranja, odabran je konačni model koji je dalje evaluiran. Model je evaluiran korištenjem anketa u kojima su ispitanici ocjenjivali sintetizator na testnim rečenicama, uspoređivali ih s izgovorenim rečenicama i ocjenjivali sintetizator na rečenicama podijeljenim u kategorije. Također je provedena i analiza pogrešaka u sintetiziranim rečenicama. This thesis deals with the issue of speech synthesis from text. The aim of the paper was to realize a text-to-speech model for the Croatian language. To begin with, the basic terminology of the area was given. After that, some of the existing solutions for text-to-speech were compared. The task of this thesis was solved using the Tacotron 2 model, which is explained in detail. For training purposes, a data set consisting of read sentences in Croatian with the accompanying transcript was first created. After creating the data set, the model was adapted for the Croatian language. The model was trained on a pre-trained model for the English language which greatly accelerated and facilitated the training. After training, the final checkpoint was selected which was then used for evaluation. The model was evaluated using surveys in which subjects rated the synthesizer on test sentences, compared them to spoken sentences, and rated the synthesizer on sentences divided into categories. Error analysis of the synthesized sentences was also performed.
Databáze:	OpenAIRE
Externí odkaz:	https://explore.openaire.eu/search/publication?articleId=od______3912::7ae808f4edef8ed91c554da9e02693a8 https://repozitorij.etfos.hr/islandora/object/etfos:2739/datastream/PDF Zobrazit plný text záznamu