Nvidia verändert, wie ihre Beschleuniger Doppelpräzisionsrechnungen ausführen

Ilustración conceptual de un chip Nvidia con circuitos luminosos, mostrando cómo el software emula funciones de hardware para cálculos de doble precisión.

Nvidia verändert, wie ihre Beschleuniger Doppelpräzisionsberechnungen ausführen

Das Unternehmen Nvidia hat seinen Fokus bei der Handhabung von Gleitkommaoperationen mit 64 Bits (FP64) in seinen Prozessoren für Supercomputing geändert. Laut Berichten hat das Unternehmen die Entwicklung spezialisierter Hardwareeinheiten für diesen Zweck in seinen neuen Generationen eingestellt. Stattdessen setzt es auf Simulation dieser Aufgaben durch Algorithmen in seinen Bibliotheken CUDA. Diese Methode ermöglicht es, das theoretische Leistungsniveau in bestimmten Szenarien zu erreichen oder zu übertreffen, ohne spezifische Siliziumfläche zu verbrauchen. 🔄

Die Leistungsdaten offenbaren die neue Richtung

Die offiziellen Daten von Nvidia zeigen diese Entwicklung klar. Ihr neuestes Beschleuniger-Modell, Rubin, gibt 33 Teraflops bei vektoriellen FP64-Operationen per Hardware an, eine Zahl, die mit der des H100 von vor Jahren vergleichbar ist. Bei Aktivierung der Software-Emulation behauptet Nvidia jedoch, dass Rubin bis zu 200 Teraflops bei matriziellen FP64-Berechnungen erreichen kann. Sogar die Generation Blackwell könnte mit dieser Technik 150 Teraflops erreichen, mehr als das Doppelte im Vergleich zu ihrem Vorgänger Hopper bei nativer Ausführung. 📊

Wichtiger Leistungsvergleich:

Rubin (Hardware): 33 TFLOPS bei vektoriellen FP64.
Rubin (Software): Bis zu 200 TFLOPS bei emulierten matriziellen FP64.
Blackwell (Software): Etwa 150 TFLOPS, deutlich überlegen zu Hopper.

In zahlreichen Untersuchungen mit Partnern und internen Studien haben wir festgestellt, dass die Präzision, die wir durch Emulation erreichen, mindestens gleich der Präzision ist, die wir aus den Tensor-Kernen der Hardware erhalten.

Die validierte Präzision treibt den Wandel voran

Dan Ernst, leitender Mitarbeiter von Nvidia für Supercomputing, erklärte den Grund für diesen strategischen Wechsel. Die interne Validierung und die mit Partnern haben bestätigt, dass die Genauigkeit, die durch Emulation von FP64 erreicht wird, mindestens äquivalent zur Ausführung in dedizierten Hardware-Kernen ist. Diese Erkenntnis ermöglicht es Nvidia, das Design ihrer Chips zu optimieren für Bereiche wie Künstliche Intelligenz, wo niedrigere Präzisionen (FP32, FP16) dominieren, ohne die Anforderungen des Sektors für High-Performance-Computing (HPC) zu vernachlässigen, der immer noch FP64 benötigt. ⚖️

Vorteile der Software-Emulation:

Freisetzung von Transistoren und Fläche auf dem Chip für andere Funktionen.
Ermöglichung höherer Spitzenleistungen bei spezifischen Workloads.
Erhalt der für wissenschaftliche und ingenieurtechnische Anwendungen notwendigen Präzision.

Eine neue Architektur, definiert durch Software

Es scheint, dass im Wettlauf um die Führung in der Künstlichen Intelligenz die Zuweisung von Siliziumressourcen zur Emulation statt zur nativen Ausführung zum neuen Paradigma der architektonischen Effizienz geworden ist. Dies ist ein Wechsel, bei dem die Software nicht nur das Hardware unterstützt, sondern fundamental definiert, was diese sein muss. Die Grenze zwischen beiden verwischt, um vielseitigere Lösungen zu schaffen. 🚀