Une version corrigée de l’algorithme des plus proches voisins pour l’optimisation de la F-mesure dans un contexte déséquilibré

Autor: Viola, Rémi, Emonet, Rémi, Habard, Amaury, Metzler, Guillaume, Riou, Sébastien, Sebban, Marc
Přispěvatelé: Laboratoire Hubert Curien [Saint Etienne] (LHC), Institut d'Optique Graduate School (IOGS)-Université Jean Monnet [Saint-Étienne] (UJM)-Centre National de la Recherche Scientifique (CNRS), Direction Générale des Finances Publiques (DGFiP), Ministère de l’Action et des Comptes publics
Jazyk: francouzština
Rok vydání: 2019
Předmět:
Zdroj: Conférence sur l'Apprentissage automatique (CAp 2019)
Conférence sur l'Apprentissage automatique (CAp 2019), Jul 2019, Toulouse, France
Popis: International audience; Dans le présent papier, nous proposons une approche basée sur l’algorithme des plus proches voisins pour de l’apprentissage dans un contexte déséquilibré. Dans un tel contexte, les exemples de la classe minoritaire sont au centre de l’attention et nécessitent des critères d’optimisation spécifiques pour nous permettre de les détecter, comme la F-mesure. Reposant sur des fondements géométriques, nous présentons un algorithme qui pondère la distance entre un nouvel exemple et les exemples positifs de la classe minoritaire. Cela entraı̂ne une modification des régions de Voronoı̈ et donc de la frontière de décision. Une analyse théorique de cette pondération explique comment il est possible de réduire le taux de faux négatifs tout en contrôlant le taux de faux positifs. Les expériences menées sur plusieurs jeux de données publiques, ainsi que sur de grands jeux de données du Ministère de l’Economie et des Finances sur la détection de fraude à l’impôt, mettent en évidence l’efficacité de la méthode en dépit de sa simplicité. En outre, elle se révèle d’autant plus intéressante et performante lorsque qu’elle est combinée à des méthodes d’échantillonage.
Databáze: OpenAIRE