Binaural Synthesis Individualization based on Listener Perceptual Feedback

Autor: Guezenoc, Corentin
Přispěvatelé: Institut d'Électronique et des Technologies du numéRique (IETR), Université de Nantes (UN)-Université de Rennes (UR)-Institut National des Sciences Appliquées - Rennes (INSA Rennes), Institut National des Sciences Appliquées (INSA)-Institut National des Sciences Appliquées (INSA)-CentraleSupélec-Centre National de la Recherche Scientifique (CNRS), CentraleSupélec, 3D Sound Labs SAS, 3D Sound Labs, IETR, Comue Université Bretagne Loire, Renaud Séguier
Jazyk: angličtina
Rok vydání: 2021
Předmět:
Individualisation
Modélisation statistique
Data augmentation
Audio spatiale
Personalisation
Audio processing
Digital audio signal processing - Machine learning - Neural audio synthesis - Modeling of environmental sound scenes - Modeling of auditory perception
Méthode des éléments frontières
[INFO.INFO-TS]Computer Science [cs]/Signal and Image Processing
Binaural Synthesis
Analyse en composantes principales ACP
Fonctions de transfert relatives à la tête HRTFs
Principal component analysis PCA
Modélisation 3-D
Traitement audio numérique
Head-related transfer functions HRTFs
Listening tests
Rendu binaural
Boudary element method
Augmentation de données
Personnalization
Binaural Rendering
3-D model
Traitement du signal audionumérique − Apprentissage artificiel − Synthèse audio neuronale − Modélisation des scènes sonores environnementales − Modélisation de la perception auditive
Statistical modeling
Audio spatialisée
[PHYS.MECA.ACOU]Physics [physics]/Mechanics [physics]/Acoustics [physics.class-ph]
Tests d'écoute
Modélisation 3D
Tests auditifs
Synthèse binaurale
Spatial audio reproduction
[INFO.INFO-SD]Computer Science [cs]/Sound [cs.SD]
Spatial audio processing
Traitement du signal audio numérique
Zdroj: Acoustics [physics.class-ph]. CentraleSupélec; Comue Université Bretagne Loire, 2021. English. ⟨NNT : 2021CSUP0004⟩
Popis: Evit ar sintezenn divskouarnel, pourchas d’ar selaouer HRTF (head-related transfer functions e saozneg, da lavaret eo kevreizhennoù treuzdoug e diazalc’h ar penn) personelaet a zo ur gudenn a-ziazez, a zo kaoz outi en tezenn-mañ. Eus un tu, kinnig a reomp un hentenn personeladur, a dalvez da gefluniañ, en un doare emgefreek, pouezioù ur patrom statistikel PCA (principal component analysis e saozneg, da lavaret eo analizenn dreelfennoù pennañ) HRTF. Ensellet a reomp greadusted an hentenn-mañ e meur a gefluniadur a-drugarez da zrevezadennoù psiko-klevedoniel, hag he amprouiñ a reomp gant 12 selaouerien. Stadañ a reomp eo gwellaet kalz o barregezh war al lec’hiadur klevedoniel e-keñver doareoù selaou ha n’int ket hiniennek, betek barregezhioù damheñvel ouzh re danevellet el lennegezh evit doareoù selaou hiniennek. Eus un tu all, ensellet a reompar gudenn a-zindan-mañ : reduadur mentelezh ar strolloù HRTF. Da c’houde bezañ keñveriet ganeomp reduadur mentelezh dre PCA 9 stlennvonioù kempred HRTF ha PRTF (pinna-related transfer functions, da lavaret eo kevreizhennoù treuzdoug e diazalc’h ar skouarn), kinnig a reomp un hentenn evit pinvidikaat ar stlennoù hag a zo diazezet war ganedigezh dargouezhek stummoù skouarn 3D ha war drevezadur ar strolloù PRTF kenglot a-drugarez da hentenn an elfennoù bevenn (boundary element method, pe BEM, e saozneg).; In binaural synthesis, providing individual HRTFs (head-related transfer functions) to the end user is a key matter, which is addressed in this thesis. On the one hand, we propose a method that consists in the automatic tuning of the weights of a principal component analysis (PCA) statistical model of the HRTF set based on listener localization performance. After having examined the feasibility of the proposed approach under various settings by means of psycho-acoustic simulations of the listening tests, we test it on 12 listeners. We find that it allows considerable improvement in localization performance over non-individual conditions, up to a performance comparable to that reported in the literature for individual HRTF sets. On the other hand, we investigate an underlying question: the dimensionality reduction of HRTF sets. After having compared the PCA-based dimensionality reduction of 9 contemporary HRTF and PRTF (pinna-related transfer function) databases, we propose a dataset augmentation method that relies on randomly generating 3-D pinna meshes and calculating the corresponding PRTFs by means of the boundary element method.; En synthèse binaurale, fournir à l’auditeur des HRTFs (fonctions de transfert relatives à la tête) personnalisées est un problème clef, traité dans cette thèse. D’une part, nous proposons une méthode d’individualisation qui consiste à régler automatiquement les poids d’un modèle statistique ACP (analyse en composantes principales) de jeu d’HRTF à partir des performances de localisation de l’auditeur. Nous examinons la faisabilité de l’approche proposée sous différentes configurations grâce à des simulations psychoacoustiques des tests d’écoute, puis la testons sur 12 auditeurs. Nous constatons qu’elle permet une amélioration considérable des performances de localisation comparé à des conditions d’écoute non-individuelles, atteignant des performances comparables à celles rapportées dans la littérature pour des HRTF individuelles. D’autre part, nous examinons une question sous-jacente : la réduction de dimensionnalité des jeux d’HRTF. Après avoir comparé la réduction de dimensionalité par ACP de 9 bases de données contemporaines d’HRTF et de PRTF (fonctions de transfert relatives au pavillon de l’oreille), nous proposons une méthode d’augmentation de données basée sur la génération aléatoire de formes d’oreilles 3D et sur la simulation des PRTF correspondantes par méthode des éléments frontières.
Databáze: OpenAIRE