Разработка метода автоматического определения пола диктора на основе совместного оценивания моментов частоты основного тона и формантных частот
Autor: | Omelchenko, Sergey |
---|---|
Jazyk: | angličtina |
Rok vydání: | 2018 |
Předmět: | |
Zdroj: | Technology audit and production reserves; Том 3, № 2(41) (2018): Information and Control Systems; 29-33 Technology audit and production reserves; Том 3, № 2(41) (2018): Інформаційно-керуючі системи; 29-33 Technology audit and production reserves; Том 3, № 2(41) (2018): Информационно-управляющие системы; 29-33 |
ISSN: | 2226-3780 2312-8372 |
Popis: | The object of research is the methods of recognizing the speaker gender by means of speech signals. One of the most problematic places is insufficient knowledge of the choice of signs and decisive rules. This is necessary to increase the probability of correct recognition and noise immunity of gender recognition by voice signals in conditions of interference. It is also important to simplify the implementation of algorithms for recognizing the speaker gender.For recognition of the speaker gender, a new set of classification characteristics is selected, including the joint use of estimates of the average value of the pitch frequency, its kurtosis coefficient, estimates of the mean values of the formants and their asymmetry coefficients. In the course of the research, the method of statistical testing of the proposed algorithms on a personal computer is used. The experiments are carried out using real audio signals input from a microphone into a personal computer for both female and male representatives, and recorded as separate files. For this purpose, 10 standards of 10 words are used for each of the 5 female speakers and 5 male speakers.Based on the results of statistical tests for an algorithm involving the joint use of estimates of the mean value of the pitch frequency, its kurtosis coefficient, estimates of the mean values of the formants and their asymmetry coefficients, an average probability of correct recognition is obtained 1. With the additional action of additive noise of the Gaussian type, white noise and the ratio of the signal/noise q=20, for such algorithm the probability of correct recognition is experimentally obtained – 0.8. For the decision algorithm, which uses only estimates of the average value of the pitch frequency and its kurtosis coefficient, an average probability of correct recognition is estimated at 0.9. This indicates more noise immunity of such algorithms.In the future, the use of the obtained results not only for Russian and Ukrainian languages, but also for a number of foreign languages is supposed. Об'єктом дослідження є методи розпізнавання статі диктора по мовним сигналам. Одними з найбільш проблемних місць є недостатня вивченість вибору ознак і вирішальних правил. Це необхідно для підвищення ймовірності правильного розпізнавання і завадостійкості розпізнавання статі по мовним сигналам в умовах дії перешкод. Важливим також є простота реалізації алгоритмів розпізнавання статі дикторів.Для розпізнавання статі диктора обрана нова сукупність класифікаційних ознак, що включають спільне використання оцінок середнього значення частоти основного тону, її коефіцієнта ексцесу, оцінок середніх значень формант і їх коефіцієнтів асиметрії. В ході дослідження використовувався метод статистичного випробування запропонованих алгоритмів на персональному комп'ютері. Експерименти проводилися з використанням реальних звукових сигналів, введених з мікрофона в персональний комп'ютер як для представників жіночої, так і чоловічої статі, і записаних у вигляді окремих файлів. Для цього було використано 10 еталоні 10 слів для кожного з 5 дикторів жінок та 5 дикторів чоловіків.За результатами статистичних випробувань для алгоритму, що включає спільне використання оцінок середньої величини частоти основної тони, її коефіцієнта ефекту, оцінок середніх значень формантів та їх коефіцієнтів асиметрії, отримана оцінка середньої вірогідності правильного розпізнавання 1. При додатковій дії адитивної перешкоди типу гаусів білий шум і відношення сигналу/шум q=20, для такого алгоритму експериментально отримана вірогідність правильного розпізнавання – 0,8. Для алгоритму прийняття рішень, що використовує лише оцінки середньої величини частоти основної тони та її коефіцієнт ефекту, отримана оцінка середньої вірогідності правильного розпізнавання – 0,9. Це говорить про більшу завадостійкість таких алгоритмів.В перспективі передбачається використання отриманих результатів не тільки для російської та української мов, але і для ряду іноземних мов. Объектом исследования являются методы распознавания пола диктора по речевым сигналам. Одними из самых проблемных мест являются недостаточная изученность выбора признаков и решающих правил. Это необходимо для повышения вероятности правильного распознавания и помехоустойчивости распознавания пола по речевым сигналам в условиях действия помех. Важным также является простота реализации алгоритмов распознавания пола дикторов.Для распознавания пола диктора выбрана новая совокупность классификационных признаков, включающие совместное использование оценок среднего значения частоты основного тона, её коэффициента эксцесса, оценок средних значений формант и их коэффициентов асимметрии. В ходе исследования использовался метод статистического испытаний предложенных алгоритмов на персональном компьютере. Эксперименты проводились с использованием реальных звуковых сигналов, введенных с микрофона в персональный компьютер как для представителей женского, так и мужского пола, и записанных в виде отдельных файлов. Для этого использовались по 10 эталонов 10 слов для каждого из 5 дикторов женщин и 5 дикторов мужчин.По результатам статистических испытаний для алгоритма, включающего совместное использование оценок среднего значения частоты основного тона, её коэффициента эксцесса, оценок средних значений формант и их коэффициентов асимметрии, получена оценка средней вероятности правильного распознавания 1. При дополнительном действии аддитивной помехи типа гауссов белый шум и отношении сигнал/шум q=20, для такого алгоритма экспериментально получена вероятность правильного распознавания – 0,8. Для алгоритма принятия решений, использующего лишь оценки среднего значения частоты основного тона и её коэффициента эксцесса, получена оценка средней вероятности правильного распознавания – 0,9. Это говорит о большей помехоустойчивости таких алгоритмов.В перспективе предполагается использование полученных результатов не только для русского и украинского языков, но и для ряда иностранных языков. |
Databáze: | OpenAIRE |
Externí odkaz: |