Optical Neural Networks for Deep Learning Applications

Jazyk:	angličtina
Rok vydání:	2022
Předmět:	Photonics Νευρωνικά δίκτυα Βαθιά μάθηση Deep learning Φωτονικό υλικό Επιταχυντές υλικού Hardware accelerators Neural networks
DOI:	10.26262/heal.auth.ir.345185
Popis:	Η Βαθιά Μάθηση (ΒΜ) ανθίζει στις μέρες μας εξαιτίας μιας ανεύ προηγουμένου ζήτησης για επεργασία μεγάλου όγκου δεδομένων που προέρχεται από έξυπνες εφαρμογές όπως η ταξινόμηση εικόνων, η επεξεργασία λόγου, τα αυτοοδηγούμενα οχήματα, κτλ. Ταυτόχρονα, το τέλος του νόμου του Moore είναι ήδη μια πραγματικότητα που επιβάλλει φυσικούς περιορισμούς στην ανάπτυξη ενεργειακά αποδοτικών υπολογιστικών συστημάτων με υψηλές υπολογιστικές αποδόσεις με στόχο την αποδοτική εκτέλεση συγχρόνων εφαρμογών ΒΜ. Στο πλαίσιο αυτό, οι Φωτονικοί Επιταχυντές υλικού Νευρωνικών Δικτύων (ΦΕΝΔ) φαίνεται να είναι μια πολλά υποσχόμενη υποψήφια τεχνολογία για την μετά-Moore εποχή των υπολογιστικών συστημάτων υψηλής αποδοτικότητας όπου εισάγει τα πλεονεκτήματα της υψηλής ενεργειακής απόδοσης και υπολογιστικής ικανότητας των οπτικών στον τομέα των υπολογιστικών συστημάτων ΒΜ. Οι κύριες ερευνητικές συνεισφορές που έχουν πραγματοποιηθεί στο πλαίσιο αυτής της διατριβής αφορούν την ανάπτυξη των δομικών στοιχείων που απαιτούνται για την ανάπτυξη ΦΕΝΔ, όπως επίσης και αρχιτεκτονικές ΦΕΝΔ αλλά και τεχνικών εκπαίδευσης ΦΕΝΔ με επίγνωση της φύσης του φωτονικού υλικού ώστε να μεγιστοποιηθεί η απόδοση των υπολογιστικών συστημάτων ΒΜ βασιζόμενων σε ΦΕΝΔ. Ως πρώτο βήμα, αναπτύσσονται δομικά στοιχεία φωτονικού υλικού συμπεριλαμβανομένου μιας Σιγμοειδούς συνάρτησης ενεργοποίησης συμβατή με τα εδραιωμένα μοντέλα Νευρωνικών Δικτύων (ΝΔ), ένας γραμμικός νευρώνας σε φάση η οποία χρησιμοποιείται για να αποτυπωθεί το πρόσημο κάθε τιμής βάρους και Μνήμες Διευθυνσιοδότησης Περιεχομένου (ΜΔΠ) ώστε να αποθηκευτούν προσωρινά οι παράμετροι του μοντέλου ΒΜ πολύ κοντά στον ΦΕΝΔ. Τα ανεπτυγμένα δομικά στοιχεία επικυρώθηκαν πειραματικά χρησιμοποιώντας σήματα 10Gbaud. Επιπλέον, ο γραμμικός νευρώνας σε φάση συνδυάστηκε με την Σιγμοειδή συνάρτηση ενεργοποίησης σχηματίζοντας έναν πλήρως λειτουργικό νευρώνα ο οποίος αξιολογήθηκε μέσω προσομοιώσεων φυσικού επιπέδου στην ταξινόμηση εικόνων. Προχωρώντας προς την υλοποίηση ολοκληρωμένων αρχιτεκτονικών ΦΕΝΔ, σχεδιάστηκαν και επιδείχθηκαν διάφορες τοπολογίες και συστήματα ΝΔ με Ανατροφοδότηση (ΝΔΑ). Πιο συγκεκριμένα, ένας αμιγώς οπτικά ΝΔΑ με Πολυπλεξία Μήκους Κύματος (ΠΜΚ) σχεδιάστηκε και υλοποιήθηκε ώστε να αντιμετωπίσει τις προκλήσεις της αύξησης της ταχύτητας εφαρμογών ΒΜ με ανατροφοδότηση, όπου η ανατροφοδότηση κάθε νευρώνα είναι απαραίτητη ώστε να διασφαλίσει τις δυνατότητες μνήμης του ΦΕΝΔ. Στο πλαίσιο αυτό, επιδείχθηκε στα 10Gbaud μια τοπολογία ΠΜΚ 4 εισόδων, επιβεβαιώνοντας την σωστή λειτουργία της αμιγώς οπτικά εισόδου με ανατροφοδότηση. Επιπλέον, οι ιδιότητες μνήμης της τοπολογίας με ανατροφοδότηση επεκτάθηκαν μέσω μιας επιπλέον οπτικής πύλης ώστε να αποκτήσει ικανότητες επιλεκτικής μνήμης. Αυτή η νέα λειτουργικότητα έχει επικυρωθεί πειραματικά με χρονοσειρές των 10Gbaud, ενώ μια υλοποίηση του φωτονικού ΝΔΑ σε λογισμικό εκπαιδεύτηκε και δοκιμάστηκε επιτυχώς στην πρόβλεψη τιμών μετοχών. Έπειτα, ένα αμιγώς οπτικό σχήμα περιστροφής χώρου ακολουθούμενο από ένα φωτονικό ΝΔΑ αναπτύχθηκε με στόχο την εξάλειψη των αρνητικών βαρών αφού πρώτα γίνει ο κατάλληλος μετασχηματισμός του σήματος εισόδου που επιτρέπει αμιγώς οπτικά βάρη ΠΜΚ. Η προτεινόμενη τοπολογία επιδείχθηκε πειραματικά με την ταξινόμηση χρονοσειρών στα 10Gbaud, επιτυγχάνοντας την ταχύτερη αμιγώς οπτικά ταξινόμηση χρονοσειρών. Το επόμενο βήμα ήταν η μεταφορά των ανεπτυγμένων δομικών στοιχείων ΦΕΝΔ στην πλατφόρμα ολοκλήρωσης φωτονικών κυκλωμάτων σε μια πλατφόρμα ολοκλήρωσης μαζικής παραγωγής και συμβατή με την τεχνολογία CMOS όπως αυτή των φωτονικών κυκλωμάτων σε πυρίτιο. Σε αυτό το πλαίσιο, ένα Φωτονικό Νευρωνικό Δίκτυο σε Φάση (ΦΝΔΦ) με 4 εισόδους σχεδιάστηκε και υλοποιήθηκε σε πλατφόρμα πυριτίου χρησιμοποιώντας ήλεκτρο-οπτικά και θέρμο-οπτικά στοιχεία ώστε να υλοποιήσει το διάνυσμα εισόδου και τα βάρη, αντίστοιχα. Το υλοποιημένο ολοκληρωμένο κύκλωμα επαληθεύθηκε στην ταξινόμηση εικόνων με υπολογιστικό ρυθμό της τάξεως των 5 και 10 G/sec σε κάθε είσοδο, επιτυγχάνοντας ~99% ακρίβεια και 6 φορές μεγαλύτερη υπολογιστική ταχύτητα σε σύγκριση με τις ήδη υπάρχουσες σύγχρονες υλοποιήσεις φωτονικών κυκλωμάτων σε φάση. Για να επιτευχθεί αυτό, αναπτύχθηκαν επίσης οι κατάλληλες διεπαφές μεταξύ του αναλογικού φωτονικού ολοκληρωμένου κυκλώματος και των περιφερειακών ψηφιακών κυκλωμάτων όπως και η κατάλληλη μεθοδολογία αξιολόγησης, υλοποιώντας επαναδειγματοληψία σήματος, συγχρονισμό, φιλτράρισμα, ισοστάθμιση σήματος, κτλ., ώστε να διασφαλισθεί η υψηλή ποιότητα σήματος μετά από τους φωτονικούς υπολογισμούς. Τέλος, αναπτύχθηκαν και επιβεβαιώθηκαν πειραματικά τεχνικές εκπαίδευσης ΦΕΝΔ με γνώση υλικού ώστε να απελευθερωθούν πλήρως οι ικανότητες των ΦΕΝΔ. Στο πλαίσιο αυτό, η ανθεκτικότητα των ΦΕΝΔ σε μη-ντετερμινιστικές πηγές θορύβου μπορεί να αυξηθεί με την ανάπτυξη της κατάλληλης μεθόδου εκπαίδευσης με γνώση θορύβου. Η πειραματική επίδειξη του εκπαιδευμένου μοντέλου με γνώση θορύβου επέτυχε υψηλότερη ακρίβεια ταξινόμησης κατά 2.54%, το οποίο μπορεί να μεταφραστεί και σαν ανοχή σε 1.8dB υψηλότερες κυκλωματικές απώλειες. Έπειτα η επίδραση των ντετερμινιστικών πηγών θορύβου στο σύστημα μετριάστηκαν με την πρόταση ενός μοντέλου εκπαίδευσης με γνώση της απόκρισης του καναλιού το οποίο λαμβάνει υπόψη την συχνοτική απόκριση του υποκείμενου υλικού των ΦΕΝΔ. Η πειραματική επιβεβαίωση αυτής της πρωτοποριακής μεθόδου εμφάνισε 92.1% ακρίβεια ταξινόμησης σε χειρόγραφες εικόνες ψηφίων σε υπολογιστικούς ρυθμούς των 32G/sec σε κάθε είσοδο χρησιμοποιώντας φωτονικά στοιχεία με 7GHz φασματική απόκριση 3dB μόνο. Deep Learning (DL) is thriving today due to an unprecedented demand for processing large volumes of data originating from intelligent applications such as image classification, language processing, self-driving vehicles, etc. At the same time, the end of Moore’s law is already a reality that imposes physical limitations for developing energy-efficient and high-performance computing systems targeting the efficient deployment of modern DL applications. In this context, Photonic Neural Network Accelerators (PNNAs) seem to be a promising hardware candidate for the post-Moore era high-performance computing systems, bringing the credentials of extremely high energy efficiency and computational density of optics into the DL computing sector. The main research contributions of this thesis revolved around the development of basic building blocks for developing PNNAs, PNNA architectures, and photonic hardware-aware training techniques for maximizing the efficiency of PNNA-based DL computing systems. As a first step, a new portfolio of photonic building blocks was developed including a Sigmoid activation function compatible with the standard Neural Network (NN) models, a coherent linear neuron that exploits the phase of light to imprint efficiently the sign of the weights and optical Content-Addressable Memories (CAMs) to support the efficient temporary storage of DL workload parameters close to the PNNA. The developed PNNA building blocks have been validated experimentally using 10Gbaud data streams. Furthermore, the coherent linear neuron has been combined with the Sigmoid activation function forming a fully functional neuron that has been evaluated through physical layer simulations on image classification. Moving towards implementing complete PNNA architectures, various Recurrent NNs (RNNs) layouts and systems have been designed and demonstrated experimentally. In particular, a Wavelength-Division Multiplexed (WDM) all-optical RNN was designed and implemented to address the challenges of accelerating recurrent DL applications, where the feedback of each neuron is necessary to ensure the memory capabilities of the PNNA. In this context, a 4-input WDM layout has been demonstrated at 10Gbaud, validating the proper functionality of the all-optical recurrent input. Furthermore, the memory properties of the recurrent layout have been extended through an additional optical gate so as to get selective memory capabilities. This new functionality has been validated experimentally with 10Gbaud data sequences, while the software implementation of a photonic RNN with and without selective memory has been trained and tested successfully on the price prediction of stocks. Afterwards, an all-optical space rotation scheme followed by a photonic RNN layout was developed to eliminate negative weights after properly transforming the input signal, enabling all-optical WDM weighting. The proposed layout has been demonstrated experimentally by classifying time-series at 10Gbaud, achieving the fastest all-optical time-series classification. The next step was to transfer the developed PNNA building blocks on a silicon photonic platform to assess their performance on a mass-manufacturable and Complementary Metal-Oxide Semiconductor (CMOS)-compatible platform such as silicon photonics. In this context, a 4-input Coherent Photonic Neural Network (CPNN) has been designed and fabricated on a silicon photonic platform employing electro-optic and thermo-optic components to realize the input vector and the weights, respectively. The fabricated chip was tested on an image classification task at 5 and 10G Multiply-And-accumulate (MAC)/sec/axon rates, revealing ~99% classification accuracy and 6× higher on-chip compute rates compared to state-of-the-art coherent implementations. In doing so, the design and implementation of interfaces between the analogue photonic chip and the digital world and the appropriate evaluation methodology were also developed, realizing the data resampling, time synchronization, filtering, equalization etc. so as to preserve the high signal quality after the photonic MAC operations. Finally, hardware-aware PNNA training techniques have been developed and validated experimentally in order to unleash the full potential of PNNAs. In this context, the resiliency of PNNAs in non-deterministic noise sources has been enhanced by developing the appropriate noise-aware training method. The experimental demonstration of the noise-aware trained model achieved higher classification accuracy by 2.54%, which can be translated as tolerance to 1.8dB higher insertion losses. Then the effect of deterministic noises in the system has been mitigated by introducing a channel response-aware training model that considers the underlying hardware's frequency response of PNNAs. The experimental validation of this pioneering method revealed 92.1% classification accuracy on hand-written digit images at 32GMAC/sec/axon using photonic components with 7GHz 3dB bandwidth only.
Databáze:	OpenAIRE
Externí odkaz:	https://explore.openaire.eu/search/publication?articleId=doi_________::db177594d920fc967638b9dc609e93f9 Zobrazit plný text záznamu