Popis: |
This thesis was conducted within the project "Freischütz Digital" (FreiDi), an interdisciplinary cooperation between musicologists and computer scientists. A general goal of the FreiDi project was to develop and introduce computer-based methods that enhance human involvement with music. The opera "Der Freischütz" by Carl Maria von Weber provides a complex music scenario offering a large number of sources, including different versions of the musical score, the libretto, and audio recordings. Motivated by the FreiDi scenario, I applied methods from signal processing and music information retrieval (MIR) to process audio material with the goal of detecting and establishing semantic relationships across various music recordings and symbolic representations. This thesis presents novel, content-based methods for music synchronization, audio segmentation, and interference reduction. First, I present a novel memory-efficient algorithm for music synchronization based on a multiscale dynamic time warping (DTW) approach, which allows for specifying a constant upper bound on memory requirements. Secondly, I adapt automated segmentation procedures based on synchronization and matching techniques to segment different recordings of the opera consistently according to a given reference segmentation. Thirdly, I present a method to reduce interference in multitrack music recordings that iteratively estimates both the power spectral density of each instrument/voice and its corresponding strength in each microphone signal, based on Wiener-filtering and non-negative matrix factorization (NMF). Specific applications within the FreiDi scenario demonstrate the practicability of the proposed algorithms. Furthermore, systematic experiments on real-world music recordings beyond this scenario not only illustrate benefits and limitations of automated methods, but also deepen the understanding of inconsistencies and variations within the recordings. Diese Arbeit wurde im Rahmen des Projekts "Freischütz Digital" (FreiDi) durchgeführt, einer interdisziplinären Kooperation zwischen Musikwissenschaftlern und Informatikern. Allgemeines Ziel des FreiDi-Projekts war die Entwicklung von computer-basierten Methoden, die die Benutzerinteraktion mit Musikdaten erleichtern und bereichern sollen. Die Oper "Der Freischütz" von Carl Maria von Weber stellt mit seiner reichhaltigen Quellenlage mit verschiedenen Versionen des Notentexts, des Librettos und einer Vielzahl von Audioaufnahmen ein komplexes Musikszenario dar. Ausgehend vom FreiDi-Szenario habe ich Methoden der Signalverarbeitung und des Music Information Retrievals auf die Audioaufnahmen angewendet, um semantische Verknüpfungen zwischen den verschiedenen Musikaufnahmen und symbolischen Repräsentationen zu erkennen und herzustellen. In dieser Arbeit werden neue, inhaltsbasierte Methoden zur Musiksynchronisation, Audiosegmentierung und zur Reduktion von Übersprechen vorgestellt. Insbesondere wird ein speichereffizienter, auf einem multiskalen dynamic time warping-Ansatz basierender Musiksynchronisationsalgorithmus vorgestellt, dessen Speicherverbrauch sich durch eine obere Schranke begrenzen lässt. Weiterhin werden synchronisations- und matching-basierte automatisierte Segmentierungsverfahren entwickelt, um eine durch eine Referenzaufnahme festgelegte einheitliche Segmentierung der verschiedenen Aufnahmen der Oper herzustellen. Als weiteren Hauptbeitrag wird ein iteratives Verfahren zur Reduktion des Übersprechens in Multikanal Musikaufnahmen vorgestellt. Hierbei wird die spektrale Leistungsdichte der beteiligten Instrumente sowie deren Stärke in den Mikrofonen durch ein auf Wiener-Filter und Nicht-negativer Matrix-Faktorisierung (NMF) basierendes Verfahren geschätzt. Spezifische Anwendungsszenarien im FreiDi-Projekt veranschaulichen die Praktikabilität der vorgestellten Algorithmen. Über das FreiDi-Szenario hinaus werden in systematischen Experimenten mit realen Musikaufnahmen nicht nur die Vorteile und Einschränkungen von automatisierten Methoden aufgezeigt, sondern auch das Verständnis der in den Aufnahmen selbst liegenden Inkonsistenzen und Variabilitäten vertieft. |