Distance metric learning for image and webpage comparison

Autor: Law, Marc Teva
Jazyk: angličtina
Rok vydání: 2015
Předmět:
Druh dokumentu: Text
Popis: Cette thèse se focalise sur l'apprentissage de distance pour la comparaison d'images ou de pages Web. Les distances (ou métriques) sont exploitées dans divers contextes de l'apprentissage automatique et de la vision artificielle tels que la recherche des k plus proches voisins, le partitionnement, les machines à vecteurs de support, la recherche d'information/images, la visualisation etc. Nous nous intéressons dans cette thèse à l'apprentissage de fonction de distance paramétrée par une matrice symétrique semi-définie positive. Ce modèle, appelé (par abus) apprentissage de distance de Mahalanobis, consiste à apprendre une transformation linéaire des données telle que la distance euclidienne dans l'espace projeté appris satisfasse les contraintes d'apprentissage.Premièrement, nous proposons une méthode basée sur la comparaison de distances relatives qui prend en compte des relations riches entre les données, et exploite des similarités entre quadruplets d'exemples. Nous appliquons cette méthode aux attributs relatifs et à la classification hiérarchique d'images.Deuxièmement, nous proposons une nouvelle méthode de régularisation qui permet de contrôler le rang de la matrice apprise, limitant ainsi le nombre de paramètres indépendants appris et le sur-apprentissage. Nous montrons l'intérêt de notre méthode sur des bases synthétiques et réelles d'identification de visage.Enfin, nous proposons une nouvelle méthode de détection automatique de changement dans les pages Web, dans un contexte d'archivage. Pour cela, nous utilisons les relations de distance temporelle entre différentes versions d'une même page Web. La métrique apprise de façon entièrement non supervisée détecte les régions d'intérêt de la page et ignore le contenu non informatif tel que les menus et publicités. Nous montrons l'intérêt de la méthode sur différents sites Web.
This thesis focuses on distance metric learning for image and webpage comparison. Distance metrics are used in many machine learning and computer vision contexts such as k-nearest neighbors classification, clustering, support vector machine, information/image retrieval, visualization etc. In this thesis, we focus on Mahalanobis-like distance metric learning where the learned model is parametered by a symmetric positive semidefinite matrix. It learns a linear tranformation such that the Euclidean distance in the induced projected space satisfies learning constraints.First, we propose a method based on comparison between relative distances that takes rich relations between data into account, and exploits similarities between quadruplets of examples. We apply this method on relative attributes and hierarchical image classification. Second, we propose a new regularization method that controls the rank of the learned matrix, limiting the number of independent parameters and overfitting. We show the interest of our method on synthetic and real-world recognition datasets. Eventually, we propose a novel Webpage change detection framework in a context of archiving. For this purpose, we use temporal distance relations between different versions of a same Webpage. The metric learned in a totally unsupervised way detects important regions and ignores unimportant content such as menus and advertisements. We show the interest of our method on different Websites.
Databáze: Networked Digital Library of Theses & Dissertations