Distributed Task-Based In Situ Data Analytics for High-Performance Simulations - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Thèse Année : 2023

Distributed Task-Based In Situ Data Analytics for High-Performance Simulations

Analyses de données in situ par tâches distribuées pour les simulations haute performance

Résumé

A widening performance gap is separating CPU performance and IO bandwidth on large-scale systems. In some fields, such as weather forecast and nuclear fusion, numerical models generate such amounts of data that classical post hoc processing is not feasible anymore due to the limits in both storage capacity and IO performance. In situ approaches are attractive to bypass disk accesses in these cases and fully leverage the HPC platform. They are, however, often complex to set up and can require to re-develop parallel versions of the analysis from scratch.In our work, we propose a hybrid model that is well-suited for in situ workflows that combine regular simulations and irregular analytics. We couple the bulk synchronous parallel paradigm for simulation with a distributed task-based one for analysis. This reduces complexity and leverages the best of each of these two powerful paradigms. We propose a bridging model between the two paradigms and validate it through a prototype called DEISA, which supports coupling MPI parallel codes with analyses written using Dask.The bridging model requires minimal modifications of both the simulation and analysis codes compared to their post hoc counterpart. It gives access to an already existing rich ecosystem to be used in situ, such as the parallel versions of Numpy, Pandas and scikit-learn.We introduce new concepts in Dask distributed to support the in situ analytics natively. The approach has been evaluated and compared to post hoc analytics in two supercomputers, and DEISA has been used in production use cases. The results are quite interesting and show good performance with minimum coding efforts.
Sur les systèmes à grande échelle, l'écart entre les performances des CPU et la de bande passante des disques ne cesse d'augmenter. Dans certains domaines, tels que les prévisions météorologiques et la fusion nucléaire, les modèles numériques génèrent des grandes quantités de données qu'un traitement post hoc classique n'est plus possible en raison des limites de la capacité de stockage et de la performance des entrées-sorties. Les approches in situ sont intéressantes pour éviter les accès aux disques dans ces cas et tirer pleinement parti de la plateforme HPC. Cependant, elles sont souvent complexes à mettre en place et peuvent nécessiter de redévelopper des versions parallèles des analyses.Dans notre travail, nous proposons un modèle qui est bien adapté aux traitements in situ qui combine des simulations régulières et des analyses irrégulières. Nous couplons le modèle MPI pour la simulation avec un paradigme par tâches distribuées pour l'analyse. Cela permet de réduire la complexité et de tirer le meilleur parti de chacun de ces deux puissants paradigmes. Nous proposons un modèle de couplage des deux paradigmes et le validons à l'aide d'un prototype appelé DEISA, qui permet de coupler des codes parallèles MPI avec des analyses écrites en Dask distribué.Le modèle de nécessite des modifications minimales des codes de simulation et d'analyse par rapport à leurs équivalents post hoc. Il donne accès à tout l'écosystème déjà existant à utiliser en in situ, comme les versions parallèles de Numpy, Pandas et scikit-learn. Nous introduisons de nouveaux concepts dans Dask distribué pour prendre en charge les analyses in situ de manière native. L'approche a été évaluée et comparée à des analyses post hoc sur deux supercalculateurs, et DEISA a été utilisé dans des cas de production. Les résultats sont très intéressants et montrent de bonnes performances avec un minimum d'efforts de codage.
Fichier principal
Vignette du fichier
GUEROUDJI_2023_archivage.pdf (12.16 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04194958 , version 1 (04-09-2023)

Identifiants

  • HAL Id : tel-04194958 , version 1

Citer

Amal Gueroudji. Distributed Task-Based In Situ Data Analytics for High-Performance Simulations. Distributed, Parallel, and Cluster Computing [cs.DC]. Université Grenoble Alpes [2020-..], 2023. English. ⟨NNT : 2023GRALM019⟩. ⟨tel-04194958⟩
79 Consultations
50 Téléchargements

Partager

Gmail Facebook X LinkedIn More