An empirical comparison of generative capabilities of GAN vs VAE

Autor:	Cueto Ceilis, Norma Cristina, Peters, Hanna
Jazyk:	angličtina
Rok vydání:	2022
Předmět:	Computer and Information Sciences Data- och informationsvetenskap
Druh dokumentu:	Text
Popis:	Generative models are a family of machine learning algorithms that are aspire to enable computers to understand the real world. Their capability to understand the underlying distribution of data enables them to generate synthetic data from the data they are trained on. One field these networks are specifically useful within is image synthesis, which the medical field could benefit from when images on diseases are scarce. In this report a comparison of a Convolutional Variational autoencoder (CVAE) and a Deep Convolutional Generative adversarial network (DCGAN) was made, with respect to their ability to generate synthetic images. The models were trained on two different datasets, the MNIST digits dataset and the Fashion-MNIST dataset and their performance was measured using Fréchet inception distance (FID), a recently proposed evaluation metric. Our results showed that the DCGAN was superior to the CVAE on generating synthetic images. It achieved lower, i.e better, FID scores on a great majority of the tests with a significant margin. However, the DCGAN had a larger variation of FID scores, whilst the CVAE had more consistent scores. Our results are in line with previous work presented within the field regarding both our results and the characteristics of FID. Although no proper visual inspection of the images was conducted in this report we present the generated images for both models for the curious reader and for further research. Generativa modeller är en familj inom maskininlärning som ligger strävar efter att lära datorer hur den riktiga världen ser ut. Deras förmåga att finna den underliggande fördelningen hos data tillåter dessa modeller att generera syntetisk data från den data de tränats på. Generativa modeller är särskilt användbara när det kommer till att skapa syntetiska bilder, något som är efterfrågat inom det medicinska ämnesområdet för att komplettera bilder på ovanliga sjukdomar där befintlig data är otillräcklig. I denna rapport görs en jämförelse mellan en DCGAN och en CVAE för att sedemera analysera deras förmåga att generara syntetiska bilder. Modeller tränades på två dataset, MNIST digit dataset och Fashion MNIST dataset, och dess prestanda mättes med FID, en relativt ny mätmetod. Resultaten visade att DCGANen presterade bättre än CVAEn när det kom till att generera syntetiska bilder. Den fick lägre resultat på FID i en majoritet av fallen med god maginal. Däremot visade resultaten från DCGANen på en större varians av FID, medan CVAEn hade ett mer sammanhängande resultat. Resultatet var även i linje med vad tidigare forskning visat, både gällande resultatet i sig men även när det gäller typiska karaktärsdrag hos FID. Fastän rapporten inte inkluderar en ordentlig visuell inspektion av bilderna presenteras de genererade bilderna för den nyfikna läsaren.
Databáze:	Networked Digital Library of Theses & Dissertations
Externí odkaz:	http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-320029 Zobrazit plný text záznamu