New insights on speech signal modeling in a Bayesian framework approach
Autor: | Casamitjana Díaz, Adrià |
---|---|
Přispěvatelé: | Chatterjee, Saikat, Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions |
Jazyk: | angličtina |
Rok vydání: | 2015 |
Předmět: |
Signal processing
Bayesian learning Other Electrical Engineering Electronic Engineering Information Engineering tratamiento del señal Procesado de voz Tractament del senyal speech modeling Enginyeria de la telecomunicació::Processament del senyal [Àrees temàtiques de la UPC] line spectral frequencies Speech processing predicción lineal cancelación de ruido Processament de la parla Speech processing systems Annan elektroteknik och elektronik time-varying linear prediction signal |
Zdroj: | UPCommons. Portal del coneixement obert de la UPC Universitat Politècnica de Catalunya (UPC) Recercat. Dipósit de la Recerca de Catalunya instname |
Popis: | Speech signal processing has always brought a lot of attention from the communication theory community. Speech communication, as the most natural way of communication between humans, is, indeed, a mature reserach topics with rich literature from even before the first digital hardware appeared to nowadays. The continously increasing telephony market brought special attention to the discipline during the 80's and 90's, specially in speech coding and speech enhancement, where the most significant contributions were made. More recently, due to the appearance of novel signal processing techniques, the standard methods are being questioned. Sparse representation of signals and compessed sensing made significant contributions to the discipline, through a better representation of signals and more eficient processing techniques. In this thesis, standard speech modeling techniques are revisited. Firstly, a representation of the speech signal through the line spectral frequencies (LSF) is presented, with a extended stability analysis. Moreover, a new Bayesian framework to time-varying linear prediction (TVLP) is shown, with the analysis of different methods. Finally, a theoretical basis for speech denoising is presented and analyzed. At the end of the thesis, the reader will have a broader view of the speech signal processing discipline with new insights that can improve the standard methodology. Desde siempre, el procesamiento de señales de voz ha recibido una gran atención por parte de la comunidad científica. El habla, como forma más natural de comunicación humana, es un campo maduro y con una extensa literatura desde antes de la aparición del primer hardware digital hasta hoy en día. Este campo recibió una atención especial por pate de la comunidad científica durante las décadas 80 y 90, juntamente con el crecimiento del mercado de comunicaciones telefónicas. Las mayores contribuciones fueron en codificación de señales de voz y cancelación de ruido. Más recientemente, debido a la aparición de nuevas técnicas de procesamiento de señal, los métodos tradicionales están siendo cuestionados. La representación de señales de forma sparse con la utilización de métodos como compressed sensing han contribuido mucho en la comunidad recientemente. En este trabajo, se analizan y mejoran las técnicas estándar de modelado de señales de voz. Primeramente, se centra en la estabilidad de la señal de voz y se propone un nuevo método de modelado basado en líneas espectrales de frecuencia (LSF). Más adelante, se reformula el problema de predicción lineal variante en el tiempo (TVLP) mediante técnicas bayesianas, con un extenso análisis de los métodos utilizados hasta el momento. Finalmente, se presenta la base teórica de un nuevo método de cancelación de ruido en señales de voz. Al terminar, el lector tendrá una visión más grande del campo de procesado de voz con nuevas ideas que ayudan a mejorar los métodos tradicionales. Des de sempre, el processament de senyals de veu ha rebut gran atenció per part de la comunitat científica. La parla, com a forma més natural de comunicació humana, és un camp madur amb una extensa literatura que va des d’abans de l’aparició dels primers hardwares digitals fins avui en dia. Aquest camp va rebre especial atenció per part de la comunitat científica durant les dècades dels 80 i 90, juntament amb el creixement del mercat de comunicacions telefòniques. Les majors contribucions es van dur a terme en codificació de senyals de veu i cancel•lació de soroll. Més recentment, degut a l’aparició de noves tècniques de processament de senyal, els mètodes tradicionals estan sent qüestionats. La representació de forma sparse de senyals amb la utilització de mètodes com compressed sensing han contribuït molt en la comunitat recentment. En aquest treball, s’analitzen i es milloren les tècniques estàndard de modelatge dels senyals de veu. Primerament, es posa èmfasi a la estabilitat dels senyals de veu i es proposa un nou mètode de modelatge basat en línies espectrals de freqüència (LSF). Més endavant, es reformula el problema de predicció lineal variant en el temps mitjançant tècniques bayesianes, amb un extens anàlisi dels mètodes emprats fins al moment. Finalment, es presenta la base teòrica d’un nou mètode de cancel•lació de soroll en senyals de veu. Al acabar, el lector tindrà una visió més àmplia del camp de processament de veu amb noves idees que ajuden a millorar els mètodes tradicionals. |
Databáze: | OpenAIRE |
Externí odkaz: |