From image to MIDI: Implementing a complete OMR system for sheet music

Autor: Alcon Acedo, Arnau Josep, Universitat Autònoma de Barcelona. Escola d'Enginyeria
Přispěvatelé: Fornes Bisquerra, Alicia
Jazyk: angličtina
Rok vydání: 2023
Předmět:
Popis: Computationally reading the information contained in music scores presents many challenges. One of those challenges is having to coordinate several separate processes. Deep learning allows to consolidate a few of these processes into a single step. This project proposes a complete sheet detection system with a seq2seq solution as its base that takes small, bar-sized sheet music chunks in PNG format at the input and creates a prediction MIDI file at the output. It implements the required functionalities to have the entire pipeline. These functionalities include segmenting a score into its bars, doing predictions on these segments and combining all the MIDI outputs into a single MIDI file. Llegir de manera computacional la informació que conté una partitura presenta molts reptes. Un d'aquests reptes és la necessitat de coordinar diversos processos diferents. Aplicar deep learning permet consolidar alguns d'aquests processos en un sol pas. Aquest projecte proposa un sistema complert de predicció de partitures partint d'un model seq2seq que pren petits troçets de partitura, de la mida d'un compàs, en format PNG a l'entrada, i crea un arxiu MIDI amb la predicció a la sortida. S'implementen les funcionalitats necessàries per tenir el pipeline sencer. Aquestes funcionalitats inclouen segmentar la partitura en compassos, realitzar prediccions sobre aquests, i agrupar tots els MIDIs resultants en un de sol. Leer de forma computacional la información que contiene una partitura presenta muchos retos. Uno de estos retos es la necesidad de coordinar varios procesos distintos. Las técnicas de deep learning permiten fusionar algunos de estos procesos en uno solo. Este proyecto propone un sistema completo de lectura de partituras musicales basado en un modelo seq2seq que toma pequeños segmentos de partitura, del tamaño de un compás, en formato PNG como entrada y crea un archivo MIDI con la predicción a la salida. Se implementan las funcionalidades necesarias para tener un pipeline entero. Estas funcionalidades incluyen segmentar partituras en compases, ejecutar predicciones sobre estos, y combinar todas las salidas MIDIs en un solo archivo.
Databáze: OpenAIRE