Nvidia modifie la façon dont ses accélérateurs exécutent les calculs de double précision

Ilustración conceptual de un chip Nvidia con circuitos luminosos, mostrando cómo el software emula funciones de hardware para cálculos de doble precisión.

Nvidia modifie la façon dont ses accélérateurs exécutent les calculs de double précision

L'entreprise Nvidia a pivoté son approche pour gérer les opérations en virgule flottante de 64 bits (FP64) sur ses processeurs pour supercalcul. Selon des rapports, la société a arrêté le développement d'unités matérielles spécialisées à cet effet dans ses nouvelles générations. À la place, elle s'appuie sur la simulation de ces tâches par des algorithmes au sein de ses bibliothèques CUDA. Cette méthode lui permet d'égaler ou de surpasser les performances théoriques dans certains scénarios sans consommer d'espace silicium spécifique. 🔄

Les chiffres de performance révèlent la nouvelle direction

Les données officielles de Nvidia montrent clairement cette évolution. Son accélérateur le plus récent, Rubin, annonce 33 téraflops en opérations vectorielles FP64 par matériel, un chiffre comparable à celui du H100 d'il y a quelques années. Cependant, en activant l'émulation par logiciel, Nvidia affirme que Rubin peut atteindre jusqu'à 200 téraflops en calculs matriciels FP64. Même la génération Blackwell, avec cette technique, pourrait atteindre 150 téraflops, plus du double de son prédécesseur Hopper exécutant nativement. 📊

Comparaison clé des performances :

Rubin (Matériel) : 33 TFLOPS en FP64 vectoriel.
Rubin (Logiciel) : Jusqu'à 200 TFLOPS en FP64 matriciel émulé.
Blackwell (Logiciel) : Environ 150 TFLOPS, surpassant largement Hopper.

Dans de nombreuses recherches avec des partenaires et des études internes, nous avons découvert que la précision obtenue par émulation est, au minimum, égale à celle obtenue des cœurs tensoriels matériels.

La précision validée impulse le changement

Dan Ernst, dirigeant de Nvidia pour le supercalcul, a expliqué la raison de ce virage stratégique. La validation interne et avec des partenaires a confirmé que la précision atteinte en émulant FP64 est au moins équivalente à celle d'une exécution sur des cœurs matériels dédiés. Cette découverte permet à Nvidia d'optimiser la conception de ses puces pour des domaines comme l'intelligence artificielle, où prédominent des précisions inférieures (FP32, FP16), sans négliger les besoins du secteur du calcul haute performance (HPC) qui requiert encore FP64. ⚖️

Avantages de l'émulation par logiciel :

Libère des transistors et de l'espace sur la puce pour d'autres fonctions.
Permet d'atteindre des pics de performance supérieurs sur des charges de travail spécifiques.
Maintient la précision nécessaire pour les applications scientifiques et d'ingénierie.

Une nouvelle architecture définie par le logiciel

Il semble que, dans la compétition pour dominer l'intelligence artificielle, allouer des ressources silicium à l'émulation plutôt qu'à l'exécution native soit devenu le nouveau paradigme de l'efficacité architecturale. C'est un virage où le logiciel ne se contente pas de soutenir le matériel, mais redéfinit fondamentalement ce que celui-ci doit être. La frontière entre les deux s'estompe pour créer des solutions plus polyvalentes. 🚀