Les applications de calcul haute performance (HPC) adoptent de plus en plus des stratégies de précision mixte, utilisant plusieurs formats de nombres à virgule flottante pour optimiser à la fois les performances et l'utilisation de la mémoire. Alors que nous passons de la double et simple précision traditionnelles aux formats émergents comme bfloat16 et float16, comprendre les implications sur les performances devient critique pour l'efficacité des calculs.
Cette présentation fournit des benchmarks complets des routines BLAS à travers le spectre de précision - de la double précision 64 bits jusqu'aux formats 16 bits. Nous examinons les performances GFLOPS pour les opérations d'algèbre linéaire courantes comme GEMM, démontrant les gains de performance significatifs réalisables avec les types de données à plus faible précision sur les architectures x86 modernes.
Au-delà des considérations de performance, les environnements de calcul parallèle et distribué introduisent un comportement non-déterministe qui peut compromettre la reproductibilité des résultats - une exigence critique pour le calcul scientifique, le débogage et la conformité réglementaire. Nous introduisons la fonctionnalité de Reproductibilité Numérique Conditionnelle (CNR), explorant ses différents modes depuis la performance maximale (OFF) jusqu'à la compatibilité inter-plateforme (COMPATIBLE), et démontrons comment utiliser les modes CNR pour équilibrer la vitesse de calcul avec des résultats reproductibles.
Cette session présente les compromis de performance entre différents formats de précision et modes CNR, fournissant des perspectives sur les considérations précision-performance-reproductibilité qui définissent aujourd'hui les charges de travail HPC.
|