Evaluation automatique de la qualité de données: Challenge Amies Le Foyer - Comment évaluer de manière automatique la qualité d’une table de données ?

Autor: SARR, Djibril
Přispěvatelé: Université Paris 13 (UP13), Université paris 13, FBH Associés
Jazyk: francouzština
Rok vydání: 2021
Předmět:
Zdroj: [Rapport de recherche] Université paris 13; FBH Associés. 2021
Popis: Le Challenge AMIES met en lien des doctorants en mathématiques et des entreprises ayant des problématiques de recherche qu’ellles souhaitent approfondir. La société d’assurance le Foyer a dans ce contexte proposé un sujet de ‘Data Quality‘. Ce dernier propose aux participants de construire des algorithmes qui mettront en exergue les erreurs se trouvant dans un set de données, sans connaissances a priori de son contenu ou même du "métier" concerné. Cela tout en gardant le maximum "d’explicabilité" et "d’interprétabilité" (explainability, interpretability).Nous définisssons dans ce document, une donnée valide (donc de qualité) comme étant une donnée observée, non répetée et vraisemblable par rapport aux autres observés. Nous rappelons aussi la définition de l’explicabilité selon une partie de la littérature, avant de la réadapter à notre contexte de data quality, comme étant la possibilité de justifer la non validité d’une entrée du set de données. Nous proposons ensuite une trame (framework) de détection des entrées non-valide d’un set de données. Celle-ci est une succession d’algorithmes de statistique et de machine learning (ML). Ce framework consiste en l’élimination des duplicatas, la détection des "anomalies" statistiques (outliers), la détection des erreurs typographiques et finalement celle des erreurs de logique. Ensuite, les résultats obtenus sont présentés. Nous retrouvons bien une proportion importante des erreurs d’un set de données factices.Nous concluant enfin, en soulignant que les techniques de statistiques et de ML, permettent en effet d’évaluer la qualité d’un set de données en gardant une certaine lisibilité et en permettant l’automatisation. Toutefois, l’état actuel de la littérature semble laisser penser que, l’automatisation, particulièrement, sans a priori sur le set de données, se fera très souvent au détriment de l’explicabilité et / ou de la performance informatique.
Databáze: OpenAIRE