Comparing Distributed Termination Detection Algorithms for Task-Based Runtime Systems on HPC platforms

Autor: Bosilca, George, Bouteiller, Aurélien, Hérault, Thomas, Le Fèvre, Valentin, Robert, Yves, Dongarra, Jack
Přispěvatelé: Innovative Computing Laboratory [Knoxville] (ICL), The University of Tennessee [Knoxville], Barcelona Supercomputing Center - Centro Nacional de Supercomputacion (BSC - CNS), Optimisation des ressources : modèles, algorithmes et ordonnancement (ROMA), Laboratoire de l'Informatique du Parallélisme (LIP), École normale supérieure de Lyon (ENS de Lyon)-Université Claude Bernard Lyon 1 (UCBL), Université de Lyon-Université de Lyon-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-École normale supérieure de Lyon (ENS de Lyon)-Université Claude Bernard Lyon 1 (UCBL), Université de Lyon-Université de Lyon-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS)-Inria Lyon, Institut National de Recherche en Informatique et en Automatique (Inria), Université de Lyon-Université de Lyon-Institut National de Recherche en Informatique et en Automatique (Inria)-Centre National de la Recherche Scientifique (CNRS), University of Manchester [Manchester], Roma, Equipe
Jazyk: angličtina
Rok vydání: 2022
Předmět:
Zdroj: International Journal of Networking and Computing
International Journal of Networking and Computing, 2022, 12 (1)
ISSN: 2185-2839
2185-2847
Popis: International audience; This paper revisits distributed termination detection algorithms in the context of High-Performance Computing (HPC) applications. We introduce an efficient variant of the Credit Distribution Algorithm (CDA) and compare it to the original algorithm (HCDA) as well as to its two primary competitors: the Four Counters algorithm (4C) and the Efficient Delay-Optimal Distributed algorithm (EDOD). We analyze the behavior of each algorithm for some simplified task-based kernels and show the superiority of CDA in terms of the number of control messages. We then compare the implementation of these algorithms over a task-based runtime system, PaRSEC and show the advantages and limitations of each approach on a practical implementation.
Databáze: OpenAIRE