Traitement en temps réel, haut débit et faible latence, d'images par coprocesseurs GPU & FPGA utilisant les techniques d'accès direct à la mémoire distante

Autor: Raphaël Ponsard
Přispěvatelé: Grenoble Images Parole Signal Automatique (GIPSA-lab), Centre National de la Recherche Scientifique (CNRS)-Université Grenoble Alpes (UGA)-Institut polytechnique de Grenoble - Grenoble Institute of Technology (Grenoble INP ), Université Grenoble Alpes (UGA), Université Grenoble Alpes [2020-....], Dominique Houzet, Vincent Fristot, Nicolas Janvier, STAR, ABES
Jazyk: angličtina
Rok vydání: 2020
Předmět:
Zdroj: Signal and Image processing. Université Grenoble Alpes [2020-..], 2020. English. ⟨NNT : 2020GRALT071⟩
HAL
Popis: The constant evolution of X-ray photon sources associated to the increasing performance of high-end X-ray detectors allows cutting-edge experiments that can produce very high throughput data streams and generate large volumes of data that are challenging to manage and store.In this context, it becomes fundamental to optimize processing architectures that allow real-time image processing such as raw data pre-treatment, data reduction, data compression, fast-feedback.These data management challenges have still not been addressed in a fully satisfactory way as of today, and in any case, not in a generic manner.This thesis is part of the ESRF RASHPA project that aims at developing a RDMA-based Acquisition System for High Performance Applications.One of the main characteristics of this framework is the direct data placement, straight from the detector head (data producer) to the processing computing infrastructure (data receiver), at the highest acceptable throughput, using Remote Direct Memory Access (RDMA) and zero-copy techniques with minimal Central Processing Unit (CPU) interventions.The work carried out in this thesis is a contribution to the RASHPA framework, enabling data transfer directly to the internal memory of accelerator boards.A low-latency synchronisation mechanism between the RDMA network interface cards (RNIC) and the processing unit is proposed to trigger data processing while keeping pace with detector.Thus, a comprehensive solution fulfilling the online data analysis challenges is proposed on standard computer and massively parallel coprocessors as well.Scalability and versatility of the proposed approach is exemplified by detector emulators, leveraging RoCEv2 (RDMA over Converged Ethernet) or PCI-Express links and RASHPA Processing Units (RPUs) such as Graphic Processor Units (GPUs) and Field Gate Programmable Arrays (FPGAs).Real-time data processing on FPGA, seldom adopted in X ray science, is evaluated and the benefits of high level synthesis are exhibited.The framework is supplemented with an allocator of large contiguous memory chunk in main memory and an address translation system for accelerators, both geared towards DMA transfer.The assessment of the proposed pipeline was performed with online data analysis as found in serial diffraction experiments.This includes raw data pre-treatment as foreseen with adaptive gain detectors, image rejection using Bragg's peaks counting and data compression to sparse matrix format.
L'amélioration permanente des sources de rayonnement X, ansi que les gains en performances des détecteurs de dernière géneration rendent possibles des experiences très performantes, qui peuvent produire des quantités énormes de données à haut débit, aussi difficiles à gérer qu'à stocker.Dans ce contexte, il devient indispensable d'améliorer les systèmes de calculs et de permettre le pré-traitement en temps réel des données brutes, la réjection de celles qui sont inutiles, la compression et la supervision en temps réel.Ces problématiques de gestion des flux de données n'ont pas encore reçu de réponse pleinement satisfaisante, en tous cas pas de façon générale.Cette thèse fait partie d'un projet plus vaste, le projet RASHPA de l'ESRF, visant à développer un système d'acquisition haute performance basé sur le RDMA.Une des caractéristiques essentielle de ce projet RASHPA est sa capacité à transférer directement des données de la tête du détecteur vers la mémoire de l'unité de calcul, au plus haut débit possible, en utilisant les techniques d'accès direct à la mémoire, sans copies inutiles, et minimisant le recours à un processeur (CPU).Le travail réalisé pendant cette thèse est une contribution au système RASHPA, qui rend possible le transfert direct de données dans la mémoire interne de cartes accélératrices.Un mécanisme de synchronisation à faible latence entre carte réseau RDMA et unité de calcul est proposé, déclenchant les opérations au rythme du détecteur.Cela permet de fournir une solution globale au traitement de données en temps réel, tant sur ordinateurs classiques que sur accélérateurs massivement paralleles.Pour illustrer la souplesse et l'extensibilité de l'approche proposée, plusieurs simulateurs de détecteurs ont été réalisés, s'appuyant sur les protocoles RoCEv2 ou PCI Express pour la partie transport ainsi que des unités de calcul RASHPA (RPU) à base de cartes graphiques (GPU) ou de circuits reconfigurables (FPGA).Le traitement de données en temps réel sur FPGA, encore peu pratiqué dans les sciences du rayon X, est évalué en utilisant les techniques de synthèse de haut niveau (HLS).Le projet est complété par un allocateur de mémoire centrale par grands blocs contigus, et par un système de translation d'adresses, tous deux destinés au contrôleur DMA.La qualification du pipeline de calcul proposé a été faite en s'inpirant d'expériences de cristallographie en série (SSX).Il comprend un pré-traitement des données brutes comme prévu pour un détecteur à gain adaptatif, la réjection d'images en fonction du nombre de pics de Bragg, et la compression des données au format matrice creuse.
Databáze: OpenAIRE