Sound Pattern Recognition : Evaluation of Independent Component Analysis Algorithms for Separation of Voices

Autor: Mainwaring, David, Österberg, Jonathan
Jazyk: angličtina
Rok vydání: 2018
Předmět:
Druh dokumentu: Text
Popis: With computers being used for more applications where commands can be spoken it is useful to findalgorithms which can separate voices from each other so that software can turn spoken words intocommands. In this paper our goal is to describe how Independent Component Analysis (ICA) can beused for separation of voices in cases where we have at least the same number of microphones, atdifferent distances from the speakers, as speakers whose voices we wish to separate, the so called``cocktail party problem". This is done by implementing an ICA algorithm on voice recordingscontaining multiple persons and examining the results. The use of both ICA algorithms result in aclear separation of voices, the advantage of fastICA is that the computations take a fraction of thetime needed for the ML-ICA. Both algorithms can also successfully separate voices when recordingsare made by more microphones than speakers. The algorithms were also able to separate some ofthe voices when there were fewer microphones than speakers which was surprising as thealgorithms have no theoretical guarantee for this.
I detta arbete har vi undersökt hur oberoende komponentanalys algoritmer (ICA) kan användas förseparation av röster där vi har ett varierande antal röster och mikrofoner utplacerade på olikapositioner i ett rum, mer känt som ”cocktailparty problemet”. Detta görs genom att resultatet frånICA-algoritmer appliceras på ljudinspelningar där flera personer talar i mun på varandra. Vi testar ICAalgoritmerna Maximum Likelihood-ICA (ML-ICA) och fastICA. Båda algoritmerna ger goda resultat närdet är minst lika många mikrofoner som talare. Fördelen med fastICA mot ML-ICA är att körtiden ärmycket kortare. Överraskande resultat från båda algoritmerna är att de klarade att separera ut minsten av rösterna när det var fler talare än mikrofoner då detta inte var ett förväntat resultat.
Databáze: Networked Digital Library of Theses & Dissertations