Метод идентификации дикторов на основе сравнения статистик длительностей фонем
Jazyk: | ruština |
---|---|
Rok vydání: | 2015 |
Předmět: | |
Zdroj: | Научно-технический вестник информационных технологий, механики и оптики. |
ISSN: | 2226-1494 |
Popis: | Предмет исследования. Представлен полуавтоматический метод идентификации диктора по речи на основе сравнения просодических признаков статистик длительностей звуков. В последнее время благодаря развитию речевых технологий наблюдается значительный интерес к поиску экспертных методов идентификации диктора по голосу, дополняющих с целью повышения надежности идентификации известные методы, а также обладающих низкой трудоемкостью. Эффективное решение данной проблемы необходимо для принятия надежного решения о тождестве либо различии голосов дикторов, представленных на фонограммах. Описание метода. Впервые представлен алгоритм расчета оценки различия голосов дикторов на основе сравнения статистик длительностей фонем и аллофонов. Характерной особенностью предложенного метода является возможность его применения в комплексе с другими полуавтоматическими методами (акустическими, аудитивнолингвистическими) в связи с отсутствием ярко выраженной корреляции между анализируемыми признаками. Преимуществом метода является возможность проведения экспресс-исследования фонограмм большой длительности за счет автоматизации процесса подготовки данных для анализа. Описываются принципы работы автоматического сегментатора речи, используемого для расчета статистик длительностей звуков по акустико-фонетической разметке. Программное обеспечение разработано в качестве инструмента подготовки данных для экспертного анализа. Апробация метода. Метод апробирован на базе 130 речевых записей, включающей русскую речь дикторов-мужчин и дикторов-женщин, и показал надежность 71,7% на базе, содержащей записи женской речи, и 78,4% на базе, содержащей записи мужской речи. Также было экспериментально установлено, что из всех используемых признаков наиболее информативными являются статистики длительностей фонем гласных и сонорных согласных. Практическая значимость. Результаты эксперимента показали применимость предложенного метода для решения задачи распознавания диктора по голосу и речи в рамках проведения фоноскопической экспертизы. Subject of research. The paper presents a semi-automatic method of speaker identification based on prosodic features comparison statistics of phone lengths. Due to the development of speech technologies in recent times, there is an increased interest in searching of expert methods for speaker's voice identification, which supplement existing methods to increase identification reliability and also have low labour intensity. An efficient solution for this problem is necessary for making the reliable decision whether the voices of the speakers in the audio recordings are identical or different. Method description. We present a novel algorithm for calculating the difference of speakers’ voices based on comparing of statistics for phone and allophone lengths. Characteristic feature of the proposed method is the possibility of its application along with the other semi-automatic methods (acoustic, auditive and linguistic) due to the lack of a strong correlation between analyzed features. The advantage of the method is the possibility to carry out rapid analysis of long-duration recordings because of preprocessing automation for data being analyzed. We describe the operation principles of an automatic speech segmentation module used for statistics calculation of sound lengths by acoustic-phonetic labeling. The software has been developed as an instrument of speech data preprocessing for expert analysis. Method approbation. This method was approved on the speech database of 130 speech records, including the Russian speech of the male speakers and female speakers, and showed reliability equal to 71.7% on the database containing female speech records, and 78.4% on the database containing male speech records. Also it was experimentally established that the most informative of all used features are statistics of phone lengths of vowels and sonorant sounds. Practical relevance. Experimental results have shown applicability of the proposed method for the speaker recognition task in the course of phonoscopic examination. |
Databáze: | OpenAIRE |
Externí odkaz: |