Popis: |
Audio-verzerrung ist ein essenzielles Werkzeug im Bereich des Sound-designs, welche beson- ders zur Erweiterung des harmonischen Inhalts von Bässen geeignet ist. Diese Arbeit untersucht den neuronalen Verzerrungs-Styletransfer, welcher die Funktion verfolgt, den Verzerrungsstil von einer Zielaufnahme auf eine andere automatisiert zu über- tragen. Hierfür verwendeten wir den Verzerrungseffekt Kilohearts kHs Distortion als unsere Ausgangsbasis. Diese Arbeit vergleicht eine Implementierung, welche rein auf parametrischem Lernen basiert, mit einer End-to-End Implementierung, welche Differentiable Digital Signal Processing durch Simulationen des Audioeffekts mittels Long Short-Term Memory Netzw- erken nutzt. Weiters wurde ein neuer Datensatz erstellt, welcher aus Synthesizer-Bassklängen besteht, die mit dem Synthesizer Surge XT erstellt wurden. Dieser bildete die Grundlage für das Training der Styletransfer-Netzwerke. Entgegen den Erwartungen zeigten weder die End-to-End, noch die parameterbasierten Netzwerke eine zufriedenstellende Leistung. Die LSTM-Netzwerke zeigten hingegen gute Ergebnisse bei der Simulation des Verzerrungseffektes. Diese schlechte Leistung könnte auf die Notwendigkeit einer weiteren Verfeinerung der Parametervorhersage Netzwerke zurückführen, was auf den Bedarf an weiterer Forschung hinweist. Audio distortion is a critical tool in the realm of sound-design, particularly for enriching the harmonics and timbre of otherwise plain bass sounds. However, mastering the process of audio distortion requires significant expertise and practice. This thesis explores neural distortion style transfer, which aims to streamline the sound- design process by transferring the distortion style given in a target recording to another recording in an automated manner. For this purpose, we utilized the popular Kilohearts kHs Distortion audio effect as our baseline. In this work, we conducted a comparative analysis of distortion style transfer techniques, specifically comparing an implementation purely based on parametric learning against an end-to-end implementation utilizing Differentiable Digital Signal Processing trough simulations of the audio effect via Long Short-Term Memory net- works. Furthermore, we created a novel dataset consisting of synthesizer bass sounds using the synthesizer Surge XT, which formed the foundation for training the audio style transfer networks. Contrary to expectations, neither the DDSP based, nor the parameter based style transfer networks showed satisfactory performance. However, the LSTM networks demonstrated good results in simulating the distortion audio effect. The underperformance of the style transfer networks may be attributed to the need for further refinement of the parameter prediction networks, serving the purpose of predicting distortion parameters from given target and input spectrograms, which shows the need for additional research. |