ПОБУДОВА СИСТЕМИ ІДЕНТИФІКАЦІЇ МОВЦІВ НА ОСНОВІ БІБЛІОТЕКИ АУДІООБРОБКИ PYANNOTE

Autor: Vitalii Brydinskyi
Rok vydání: 2022
Zdroj: Information Technology: Computer Science, Software Engineering and Cyber Security. :3-11
ISSN: 2786-5088
2786-507X
DOI: 10.32782/it/2022-2-1
Popis: У галузі машинного навчання одним із основних напрямків є опрацювання та розпізнавання мовлення. Серед важливих завдань роботи з аудіоданими є діаризація. Діаризація визначає часові межі в аудіозаписі, що належать окремим мовцям, тобто образно кажучи, вирішує задачу «коли хто говорить?». Проте відомі комерційні та відкриті засоби діаризації використовують кластеризацію сегментів, але не відповідають на питання «хто саме зараз говорить?». Існують системи, які ідентифікують мовця, але такі системи розраховані на те, що у аудіозапису присутній є лише один мовець. Тому актуальним завданням є створення системи діаризації, яка уможливлює ідентифікацію багатьох мовців, які довільним чином змінюються у аудіозаписах. У даному дослідженні запропоновано дві архітектури систем ідентифікації мовців на основі діаризації, які працюють відповідно на засадах по-сегментного та по-кластерного аналізу. Для побудови системи використано бібліотеку PyAnnote, що є у відкритому доступі. Верифікація роботи системи ідентифікації мовців здійснювалася на відкритій базі аудіозаписів AMI Corpus, у якому зібрано 100 годин анотованих та транскрибованих аудіо- та відеоданих. Розглянуто різні метрики оцінювання точності діаризації та, враховуючи специфіку розробленої системи, обґрунтовано доцільність застосування такої оцінки як F-Міра ідентифікації. Описано методику проведення досліджень, яка передбачала проведення трьох експериментів. Перший експеримент націлений на дослідження архітектури системи ідентифікації, що базується на по-сегментному аналізі, а другий експеримент – на дослідження архітектури, що застосовує по-кластерний аналіз. Третій експеримент стосується визначення оптимальної тривалості навчальної вибірки для класифікаторів системи ідентифікації. Результати експериментів показали, що по-кластерний підхід показав кращі результати ідентифікації порівняно із по-сегментним підходом. Також встановлено, що оптимальною тривалістю вибірки аудіоданих для тренування класифікатора під кожного конкретного мовця становить 20 секунд.
Databáze: OpenAIRE