Authentication system based on computer vision and deep learning

Autor: Koch, Brando
Přispěvatelé: Grbić, Ratko
Jazyk: chorvatština
Rok vydání: 2022
Popis: Autentičnost korisnika važan je dio svakog sustava koji mora osigurati valjana prava pristupa. Jedna od metoda biometrijske autentikacije je prepoznavanje lica. Najmoderniji sustavi za prepoznavanje lica vrlo uspješno mogu odrediti identitet osobe sa slike lica, no nedostatak im je manjak otpornosti na metode napada poput prezentacijskih napada. Jedan od potencijalnih i novoistraživanih biometrijskih obilježja, koji imaju sposobnost obrane od ovakvih napada, su fizičke i bihevioralne komponente vizualnih značajki govora - fizička unikatnost usana s obzirom na oblik i otisak/teksturu usana te bihevioralna unikatnost vizualnog stila govora. U ovom radu dan je pregled tijeka razvoja biometrijske autentikacije od jednostavnijih matematičkih modela k modernijim i složenijim rješenjima temeljenim na dubokom učenja. Zatim, predstavljen je inovativan način iskorištavanja fizičkih i bihevioralnih značajki područja oko usana tijekom govora za kreiranje algoritma biometrijske autentikacije temeljenog na računalnom vidu. To je postignuto obradom GRID [5] skupa podataka za kompatibilnost s funkcijom gubitka trojki i treniranjem sijamske neuronske mreže za stvaranje vektorske reprezentacije niza slika područja oko usana koja obuhvaća fizičke i bihevioralne značajke govora. GRID skup podataka sastoji se od audio i video zapisa izgovora rečenica koje prate strogi obrazac. Obrada GRID skupa obuhvaća izrezivanje isječaka slika videozapisa koji odgovaraju području oko usana za odabranu rečenicu. U tu svrhu korišten je Mediapipe framework i pripadajući FaceMesh model za predviđanje ključnih točaka lica. Od tako dobivenih podataka kreiraju se tenzori od kojih je moguće uparivanjem dobiti pozitivne i negativne parove. Pozitivni parovi koriste se kao ulaz za treniranje dvostruke sijamske neuronske mreže temeljene na 3D konvolucijama, koja se naziva LipAuth. Izlaz grane LipAuth modela je vektorska reprezentacija fizičke i bihevioralne komponente korisnikovih usana za danu tekstualnu lozinku. Treniranje LipAuth modela omogućeno je modifiranom funkcijom gubitka koja obavlja rudarenje teških negativnih parova. Optimalan model treniran je postupkom Bayesove [33] pretrage hiperparametara. Performanse modela mjerene su na GRID i vlastitom skupu podataka pomoću, jednake stope pogreške, stope lažnog prihvaćanja i stope lažnog odbijanja. User authentication is an important part of any system that must ensure valid access rights. One of the methods of biometric authentication is facial recognition, where an algorithm creates a concise representation of the subject's face from a facial image that can be used either to register the subject in the database or for authentication. However, facial recognition methods are not without their drawbacks. State-of-the-art facial recognition systems can very successfully determine a person's identity from a facial image, but they lack resistance to presentation attacks. One of the promising and newly researched biometric features, which have the ability to defend against such attacks, are the physical and behavioral components of visual speech features - the physical uniqueness of the lips with regard to the shape and imprint/texture of the lips and the behavioral uniqueness of the visual style of speech. This paper provides an overview of the developments of biometric authentication methods from simpler mathematical models to more modern and complex solutions based on deep learning. Following the overview, an innovative way of creating a computer vision based biometric authentication algorithm by exploiting the physical and behavioral features of the area around the lips during speech is presented. This was achieved by processing the GRID [5] dataset for compatibility with a triplet loss function and training a Siamese neural network to create a vector representation of a series of images of the lip region that captures the physical and behavioral features of speech. The GRID dataset consists of audio and video recordings of utterances that follow a strict pattern. The processing of the GRID dataset involves clipping video images that correspond to the area around the mouth for the selected part of the utterance. For this purpose, the Mediapipe framework and the associated FaceMesh model, which predicts face keypoints, are used. Tensors are created from the obtained data, from which it is possible to create positive and negative pairs. Positive pairs are used as input to train a 3D convolution-based double Siamese neural network, called LipAuth. The output of the LipAuth model branch is a vector representation of the physical and behavioral components of the user's lips while uttering a textual password. LipAuth model training is done by a modified loss function that performs hard-negative mining dynamically. The optimal model was trained using the Bayesian [33] hyperparameter search procedure. Model performance was measured on GRID dataset and our own dataset using equal-error rate, false acceptance rate, and false rejection rate.
Databáze: OpenAIRE