journée csma etude des performances d'un algorithme de ... · des mvts de corps rigide. saber...
TRANSCRIPT
1
Journée CSMA - Mai 2010
Journée CSMAEtude des performances d’un algorithme de calcul
parallèle à deux niveaux
Saber EL AREM & Georges CAILLETAUD
Centre des Matériaux MINES ParisTech, UMR CNRS 7633
Mai 2010
Saber EL AREM & Georges CAILLETAUD Journée CSMA - Mai 2010
2
Journée CSMA - Mai 2010
Introduction
Contexte et Objectifs
1 Contexte : EHPOC (Env. Haute Perf. Pour l’Opti. et la Conception)2 Rendre opérationnels les calculs de grands modèles
élasto-visco-plastiques sur un grand nombre de cœurs.3 Exploiter la performance des machines massivement parallèles à
mémoire distribuée.4 Mettre en œuvre deux parallélisme : global et local.5 Déterminer la classe de calculs réalisables avec le matériel
disponible.6 Déterminer la configuration optimale pour une taille de calcul
donnée.
Approche
1 FETI pour le parallélisme global (entre nœuds de calcul).2 Le solveur Dissection pour le parallélisme local.3 Matériel exploité : le cluster JADE du CINES.
Saber EL AREM & Georges CAILLETAUD Journée CSMA - Mai 2010
3
Journée CSMA - Mai 2010
Introduction
La méthode FETI
1 MDD basée sur une approche duale en introduisant des conditionsde raccord en effort entre sous-domaines.
2 Robuste et bien adaptée aux problèmes de calcul de structures.3 Etudes faites sur des gros modèles (quelques dizaines de millions
de ddl) ont montré que son éfficacité se déteriore au delà dequelques centaines de sous-domaines.
4 Pour des gros modèles découpés en un nombre raisonnable de SD,la taille du problème local est importante.
5 Nécessité d’un parallélisme local.
Sur le nouveau solveur direct Dissection
1 Un solveur rapide et précis (6= Sparse_Direct et Frontal).2 Détection des mvts de corps rigide (6= DSCPACK).3 Choix : solveur Dissection (Thèse I. Guèye) .
Saber EL AREM & Georges CAILLETAUD Journée CSMA - Mai 2010
4
Journée CSMA - Mai 2010
Le cluster JADE du CINES
Architecture de JADE
1 2009 : 147Tflops/s, 12288 cœurs.2 27e position au TOP500 de novembre 2009.3 2010 : 267Tflop/s, 23040 cœurs (≈ 3000 nœuds biproc. Quad 3GHz).4 30G RAM par nœud.
Saber EL AREM & Georges CAILLETAUD Journée CSMA - Mai 2010
5
Journée CSMA - Mai 2010
Présentations de quelques résultats
Mesure de speed up
Description du test
1 Un problème (cube) de taille constante (3.3 millions de ddl).2 Le comportement est élastique. On applique un chargement de
traction simple.3 Un découpage manuel est réalisé afin d’abouir à des
sous-domaines de même taille.
Saber EL AREM & Georges CAILLETAUD Journée CSMA - Mai 2010
6
Journée CSMA - Mai 2010
Présentations de quelques résultats
Mesure de speed up
Nombre de nœuds de calculNb de sous- 8 16 32 64 128 256domaines
8 1186/116 3671.62 252/2.532 179/1.66 132/2.2 87/3.464 172.4/0.9 98/1.51 80/1.85 55/2.70128 54/1.37 33/2.24 27/2.74 21.7/3.4256 24/1.54 17/2.18 18/2.1 14/2.64
1 On a intérêt à utiliser le découpage FETI maxi y compris ensupprimant totalement le multithreading local.
2 FETI permet de diminuer considérablement le temps calcul.3 On n’a pas testé au-delà de 256 SD.4 FETI est favorable y compris pour un grand découpage.5 Stratégie : attribuer 8 cœurs à dissection
Saber EL AREM & Georges CAILLETAUD Journée CSMA - Mai 2010
7
Journée CSMA - Mai 2010
Présentations de quelques résultats
Mesure de scalabilité
Description du test
1 Cette étude est effectuée en considérant un problèmemodulaire, dont le «grain» est un parallélipipède possèdant421 443 ddl. Il est soumis à une traction simple.
2 Le comportement est élastique, si bien que le calculcomporte un seul incrément et une seule itération.
3 1 sous-domaine par nœud de calcul (multithreading maxi).4 On résout ensuite un problème comportant un maillage N
fois plus gros sur N nœuds de calcul.5 Deux cas d’étude sont considérés selon la présence ou non
des mvts de corps rigide.
Saber EL AREM & Georges CAILLETAUD Journée CSMA - Mai 2010
8
Journée CSMA - Mai 2010
Présentations de quelques résultats
Mesure de scalabilité
Cas 1 : Présence de mvts de corps rigide
Saber EL AREM & Georges CAILLETAUD Journée CSMA - Mai 2010
9
Journée CSMA - Mai 2010
Présentations de quelques résultats
Mesure de scalabilité
Cas 2 : Abscence de mvts de corps rigide
Saber EL AREM & Georges CAILLETAUD Journée CSMA - Mai 2010
10
Journée CSMA - Mai 2010
Présentations de quelques résultats
Mesure de scalabilité
Comparaison et conclusions
1 Plus gros calcul réalisé :colorred400 SD, colorred400nœuds (3200 cœurs) et 164millions ddl.
2 Temps FETI inférieur à 20 mn.
3 Scalabilité parfaite du couple(FETI, Dissection) sousZéBuLon.
4 Augmentation remarquable dutemps total avec la taille duproblème (portionsséquentielles sous ZéBuLon)
5 Prèsque la moitié du tempsFETI sert à traiter les mvts decorps rigide.
Saber EL AREM & Georges CAILLETAUD Journée CSMA - Mai 2010