Machine learning and deep neural networks approach to modelling musical gestures

Autor: Cabrera Dalmazzo, David
Přispěvatelé: Ramírez, Rafael, 1966, Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions
Rok vydání: 2020
Předmět:
Zdroj: TDX (Tesis Doctorals en Xarxa)
TDR. Tesis Doctorales en Red
instname
TDR: Tesis Doctorales en Red
CBUC, CESCA
Popis: Gestures can be defined as a form of non-verbal communication associated with an intention or an emotional state articulation. They are not only intrinsically part of the human language, but also explain specific details of a body-knowledge execution. Gestures are being studied not only in the language research field but also in dance, sports, rehabilitation, and music; where the term is understood as a “learned technique of the body”. Therefore, in music education, gestures are assumed as automatic-motor abilities learned by repetitional practice, to self-teach and fine-tune the motor actions optimally. Hence, those gestures are intended to be part of the performer’s technical repertoire to take fast actions/decisions on-the flight, assuming that they are not only relevant in music expressive capabilities but also, a method for a correct ‘energy-consumption’ habit development to avoid injuries. In this thesis, we applied state-of-the-art machine learning (ML) techniques to model violin bowing gestures in professional players. Concretely, we recorded a database of expert performers and different student levels and developed three strategies to classify and recognise those gestures in real-time: a) First, we developed a multimodal synchronisation system to record audio, video and IMU sensor data with a unified time reference. We programmed a custom C++ application to visualise the output from the ML models. We implemented a Hidden Markov Model to detect fingering disposition and bow-stroke gesture performance. b) A second approach is a system that extracts general time features from the gestures samples, creating a dataset of audio and motion data from expert performers implementing a Deep Neural Networks algorithm. To do so, we have implemented the hybrid model CNN LSTM architecture. c) Furthermore, a Melspectrogram based analysis that can read and extract patterns from only audio data, opening the option of recognising relevant information from the audio recordings without the need for external sensors to achieve similar results. All of these techniques are complementary and also incorporated into an education application as a computer assistant to enhance music-learners practice by providing useful real-time feedback. The application will be tested in a professional education institution. Els gestos es poden definir com una forma de comunicació no verbal associada a una intenció o a l’articulació d’un estat emocional. No només formen part intrínsecament del llenguatge humà, sinó que també expliquen detalls específics de l’execució del coneixement del cos. Els gestos són objecte d’estudi no només en el camp de la recerca lingüística, sinó també en la dansa, l’esport, la rehabilitació i la música; on el terme s’entén com a “tècnica apresa del cos”. Per tant, en l’educació musical, els gestos s’assumeixen com a habilitats automomotrius apreses mitjançant la pràctica repetitiva, per aprendre i ajustar les accions motrius de manera ptima. En conseqüència, aquests gestos estan destinats a formar part del repertori tècnic de l’intèrpret per prendre accions/decisions ràpides en temps real durant la interpretació, suposant que no només són rellevants en les capacitats expressives de la música, sinó que també ho són com a mètode per a un correcte desenvolupament d’hàbits (“çonsum d’energia”) per evitar lesions. En aquesta tesi, hem aplicat tècniques de Machine Learning (ML) d’última generació per modelar els gestos de proa de violí en músics professionals. Concretament, hem enregistrat una base de dades d’intèrprets experts i d’estudiants de diferents nivells i hem desenvolupat tres estratègies per classificar i reconèixer aquests gestos en temps real: a) Primer, hem desenvolupar un sistema de sincronització multimodal per enregistrar dades de sensors d’àudio, vídeo i IMU amb una referència de tamps unificada. Hem programat una aplicació C++ per visualitzar els resultats dels models ML. Hem implementat un Hidden Markov Model per detectar la disposició dels dits i la realització de gestos de l’arc. b) Un segon enfocament aplicatés un sistema que extreu les característiques generals de les seqüències de dades de les mostres de gestos, creant un conjunt de dades d’àudio i de dades de moviment d’intèrprets experts implementant un algoritme de Deep Neural Networks. Per fer-ho, hem aplicat el model híbrid d’arquitectura CNN-LSTM. c) A més, s’ha fet una anàlisi basada en l’espectrograma Mel que pot llegir i extreure patrons només de dades d’àudio, obrint l’opció de reconèixer informació rellevant dels enregistraments d’àudio sense necessitat de sensors externs per obtenir resultats similars. Totes aquestes tècniques són complementàries i s’han incorporat a una aplicació d’educació com a assistent d’ordinador per millorar la pràctica dels aprenents de música proporcionant comentaris útils en temps real. Aquesta aplicació serà provada en una institució d’educació professional. Los gestos pueden definirse como una forma de comunicación no verbal asociada con una intención o una articulación del estado emocional. No solo forman parte intrínsec del lenguaje humano, sino que también explican detalles específicos de la ejecución del conocimiento corporal. Los gestos se están estudiando no solo en el campo de la investigación del lenguaje, sino también en danza, deportes, rehabilitación y música; donde el término se entiende como una “técnica aprendida del cuerpo”. Por tanto, en la educación musical, los gestos se asumen como habilidades motoras automáticas aprendidas mediante la práctica repetitiva, para aprender y afinar las acciones motoras de forma óptima. Por lo tanto, esos gestos están destinados a ser parte del repertorio técnico del intérprete para tomar acciones/decisiones rápidas en tiempo real, asumiendo que no solo son relevantes en las capacidades expresivas de la música sino también, como un método para desarrollar hábitos correctos de 'consumo de energía’ para evitar lesiones. En esta tesis, aplicamos técnicas de Machine Learning (ML) de última generación para modelar los gestos de arco de violín en interpretes profesionales. Concretamente, creamos una base de datos con músicos expertos y también con diferentes niveles de estudiantes, desarrollando tres estrategias para clasificar y reconocer esos gestos en tiempo real: a) Primero, desarrollamos un sistema de sincronización multimodal para grabar audio, video y datos de sensores IMU con una referencia de tiempo unificada. Programamos una aplicación C++ personalizada para visualizar el resultado de los modelos ML. Implementamos un Hidden Markov Model para detectar la disposición de los dedos y la ejecución del gestos del arco. b) Desarrollamos un sistema que extrae características de tiempo generales en todas las muestras de gestos, creando un conjunto de datos de audio y datos de movimiento de músicos expertos implementando un algoritmo Deep neural Networks; particularmente, el modelo híbrido CNN-LSTM. c) Además, un análisis basado en espectrograma Mel que puede leer y extraer patrones únicamente usando datos de audio, abriendo la opción de reconocer información relevante usando las grabaciones de audio sin la necesidad de sensores externos para lograr resultados similares. Todas estas técnicas son complementarias y también se incorporan en una aplicación educativa como asistente computacional para mejorar la práctica de los estudiantes de música, al proporcionar información útil en tiempo real. La aplicación se probará en una institución de educación profesional.
Databáze: OpenAIRE