Popis: |
Deep neural networks takes their strength in the representations, or features, that they internally build. While these internal encodings help networks performing classification or regression tasks on specific data types, it exists a branch of machine learning that has for only purpose to build these representations. In deep representation learning, the neural network is built to provide meaningful features that can represent the data in a more useful way. Metric learning extends representation learning by taking into account similarities and dissimilarities between datapoints. Variational Autoencoders (VAE) are generative models, that build lower dimensional encodings in a latent space. In this work, we combine Metric learning with Variational Autoencoders to build meaningful representations. We define an additional loss term, that focuses on preserving distances from the input space in the latent space. To do so, we use Fermat distance estimator, which takes into account, apart from distances itself, the density - thus structure - of a set of points. Its use in our regularization term offers the possibility to reorganize the latent space of a VAE coherently with the structure of the input dataset. This method is also unsupervised and do not require any additional labels. Our results shows the capability of our Fermat VAE to build a latent space that maintains manifold structure of the input space in a lower dimension for geometrical dataset. Furthermore, we study the impact of this method on natural datasets. In particular we focused on showing that reorganizing the latent space, with distance information, improved reconstruction and generation capabilities compared to a baseline VAE. We argue that this could be used as a prepossessing task for encoding complex dataset in lower dimensions, as well. Moreover, we analyze the impact of hyperparameter finetuning on this method, and address the imbalance problem between loss terms for VAE. Djupa neurala nätverk tar sin styrka i representationerna, eller funktionerna, som de bygger internt. Även om dessa interna kodningar hjälper nätverk att utföra en klassificering eller regressionsuppgifter på specifika datatyper, finns det en gren av maskininlärning som endast har till syfte att bygga dessa representationer. Vid inlärning av djup representation är det neurala nätverket byggt för att tillhandahålla meningsfulla funktioner som kan representera data på ett mer användbart sätt. Metrisk inlärning utökar representationsinlärning genom att ta hänsyn till likheter och olikheter mellan datapunkter. Variationella autoencoders [1] är generativa modeller som bygger lägre dimensionella kodningar i ett latent utrymme. I detta arbete kombinerar vi metrisk inlärning med Variationnal Autoencoder för att bygga meningsfulla representationer. Vi definierar ytterligare en förlustterm, som fokuserar på att bevara avstånd från inmatningsutrymmet i det latenta rummet. För att göra det använder vi en ny avståndsuppskattare, Fermat-avstånd [2], som tar hänsyn, bortsett från själva avstånden, tätheten - alltså strukturen - hos ett punktmoln. Dess användning i vår regulariseringsterm erbjuder möjligheten att omorganisera det latenta utrymmet för en VAE i överensstämmelse med strukturen för indatadataset. Denna metod är också oövervakad och kräver inga ytterligare etiketter. Våra resultat visar förmågan hos vår Fermat VAE att bygga ett latent utrymme som upprätthåller mångfaldig struktur för inmatningsutrymmet i en lägre dimension för geometrisk datauppsättning. Dessutom studerar vi effekten av denna metod på naturliga datamängder. Vi fokuserade särskilt på att visa att omorganisering av det latenta utrymmet, med avståndsinformation, förbättrade rekonstruktions- och genereringsförmåga jämfört med en baslinje VAE. Vi hävdar att detta också skulle kunna användas som en överordnad uppgift för att koda komplex datauppsättning i lägre dimensioner. Dessutom analyserar vi effekten av hyperparameterfinjustering på denna metod och tar itu med obalansproblemet mellan förlusttermer för VAE. |