АРХІТЕКТУРА ТА АЛГОРИТМ НАВЧАННЯ НЕЙРОННОЇ МЕРЕЖІ ДЛЯ РОЗПІЗНАВАННЯ ГОЛОСОВИХ СИГНАЛІВ
Autor: | Molchanova, V. S., Mironenko, D. S. |
---|---|
Jazyk: | angličtina |
Rok vydání: | 2020 |
Předmět: |
Voice interface
audio signal signal amplitude spectrogram neural network training set standard deviation Голосовий інтерфейс аудіосигнал амплітуда сигналу спектрограмма нейронна мережа навчальна вибірка середньоквадратичне відхилення Голосовой интерфейс аудиосигнал амплитуда сигнала спектрограмма нейронная сеть обучающая выборка среднеквадратическое отклонение |
Zdroj: | Radio Electronics, Computer Science, Control; № 3 (2020): Radio Electronics, Computer Science, Control; 99-107 Радиоэлектроника, информатика, управление; № 3 (2020): Радиоэлектроника, информатика, управление; 99-107 Радіоелектроніка, iнформатика, управління; № 3 (2020): Радіоелектроніка, інформатика, управління; 99-107 |
ISSN: | 1607-3274 2313-688X |
Popis: | Context. Typically, interaction between user and mobile devices is realized by touchings. However, many situations, when to implement such interaction is too awkward or impossible, exist. For example, with some diseases of musculoskeletal system, motility of movements may be impaired. It leads to inability to use device efficiently. In that case, a task of looking for alternative ways of person-device interaction becomes relevant. Voice interface development can be one of the most prospective tasks in that way.Objective. The goal of the study is to develop a project of neural network architecture and internal components for voicecontrolled systems. Resulting interface have to be adapted for processing and recognition Ukrainian speech.Method. An approach, based on audio signal analyzing by sound wave shape and spectrogram, is used for making got via microphone data, appropriable for processing. Using neural network makes possible sounds classification by generated audio signal and information of its transcription. The neural network structure is completely adapted to peculiarities of Ukrainian phonetics. It takes into account the nature of the sound wave, generated during sound pronunciation, as well the number of sounds in Ukrainian phonetics.Results. Experiments were carried out aimed to choosing optimal neural network architecture and training sample dimension. The root-mean-square deviation of neural network error was used as the main criterion in assessing its effectiveness. A comparative analysis of effectiveness of the proposed neural network and existed on the market speech recognition tools showed improvement in the relative measures of recognition by 9.26%.Conclusions. Obtained in the research results can be used for full-featured voice interface implementation. Despite the fact that the work is focused on recognition Ukrainian speech, the proposed ideas can be used during developing transcribing services for other languages. Актуальность. Обычно взаимодействие пользователя с мобильным устройством, например, телефоном или планшетом реализуется посредствам касаний. Однако возможен целый ряд ситуаций, когда осуществление такого способа человеко-машинного взаимодействия оказывается затруднительным или даже невозможным. Например, при некоторых заболеваниях опорно-двигательного аппарата возможно нарушение моторики движений, что в свою очередь приводит к невозможности полноценно использовать устройство, ошибкам, потери времени. В сложившейся ситуации актуальным становится поиск альтернативных интерфейсов взаимодействия пользователя с системой. Разработка голосовых интерфейсов является одним из наиболее перспективных направлений данной работы.Цель исследования состоит в разработке метода оптимизации данных звуковых волн и их применени при обучении нейронной сети для распознавания голосовых сигналов, образованных произношением звуков на украинском языке.Метод. Для реализации проекта предложенной в работе системы, используется подход, основанный на анализе аудиосигнала по форме образуемой им звуковой волны и спектрограммы, а также применении искусственных нейронных сетей в процессе последующей классификации и выделении отдельных, характерных для украинской речи, звуков. Нейронная сеть представляет собой трехслойный персептрон, структура которого полностью адаптирована под особенности украинской фонетики. Учитывается характер звуковой волны, образуемой при произношении того или иного звука, а также количество разнообразных звуков в украинской фонетике. Результаты Проведен ряд экспериментов, направлен на выбор оптимальной архитектуры нейронной сети и размерность обучающей выборки. В качестве основного критерия при оценке эффективности нейронной сети использовалось среднеквадратическое отклонение ее ошибки. В процессе тестирования были определены несколько вариантов комбинаций параметров нейронной сети, при которых достигались наилучшие результаты. Сравнительный анализ эффективности предложенной в работе нейронной сети и существующих на рынке инструментов распознавания показал улучшение относительных показателей распознавания на 9.26 %.Выводы. Полученные в работе результаты исследований и архитектура нейронной сети могут быть использованы при реализации полноценного голосового интерфейса для мобильных устройств, работающих под управлением операционной системы Android. Несмотря на то, что работа ориентирована на распознавание речи на украинском языке, используемые при ее реализации идеи могут быть использованы при транскрибации речи на других языках. Актуальність. Зазвичай взаємодія користувача з мобільним пристроєм, наприклад, телефоном або планшетом реалізується за допомогою торкань. Однак можливий цілий ряд ситуацій, коли здійснення такого способу людино-машинної взаємодії виявляється скрутним або навіть неможливим. Наприклад, при деяких захворюваннях опорно-рухового апарату можливе порушення моторики рухів, що в свою чергу призводить до неможливості повноцінно використовувати пристрій, помилок, втрати часу. У такій ситуації актуальним стає пошук альтернативних шляхів взаємодії користувача з системою. Розробка голосових інтерфейсів є одним з найбільш перспективних напрямків даної роботи. Мета дослідження полягає в розробці методу оптимізації даних звукових хвиль і їх застосуванні при навчанні нейронної мережі для розпізнавання голосових сигналів, утворених вимовою звуків українською мовою.Метод. Для реалізації проекту запропонованої у роботі системи, використовується підхід, заснований на аналізі аудіосигналу за формою утвореною їм звукової хвилі і спектрограми, а також застосуванні штучних нейронних мереж у процесі подальшої класифікації та виділення окремих, характерних для української мови, звуків. Нейронна мережа являє собою тришаровий персептрон, структура якого повністю адаптована під особливості української фонетики. Враховується характер звукової хвилі, яка утворюється під час вимови того чи іншого звуку, а також кількість різноманітних звуків в українській фонетиці. Результати. Проведено ряд експериментів, спрямованих на вибір оптимальної архітектури нейронної мережі і розмірність навчальної вибірки. В якості основного критерію при оцінці ефективності нейронної мережі використовувалося середньоквадратичне відхилення її помилки. В процесі тестування було визначено кілька варіантів комбінацій параметрів нейронної мережі, при яких досягалися найкращі результати. Порівняльний аналіз ефективності запропонованої в роботі нейронної мережі й існуючих на ринку інструментів розпізнавання голосу показав поліпшення відносних показників розпізнавання на 9,26%. Висновки. Отримані в роботі результати досліджень і архітектура нейронної мережі можуть бути використані під час реалізації повноцінного голосового інтерфейсу для мобільних пристроїв під управлінням операційної системи Android. Незважаючи на те, що робота орієнтована на розпізнавання мовлення українською мовою, ідеї які використовуються для її реалізації можуть бути використані при транскрібаціі голосу на інших мовах.. |
Databáze: | OpenAIRE |
Externí odkaz: |