Nvidia modifica il modo in cui i suoi acceleratori eseguono calcoli a doppia precisione

Ilustración conceptual de un chip Nvidia con circuitos luminosos, mostrando cómo el software emula funciones de hardware para cálculos de doble precisión.

Nvidia modifica come i suoi acceleratori eseguono calcoli a doppia precisione

L'azienda Nvidia ha cambiato il suo approccio per gestire operazioni in virgola mobile a 64 bit (FP64) nei suoi processori per supercomputing. Secondo i rapporti, l'azienda ha interrotto lo sviluppo di unità hardware specializzate per questo scopo nelle sue nuove generazioni. Al loro posto, si affida a simulare queste attività mediante algoritmi all'interno delle sue librerie CUDA. Questo metodo le permette di eguagliare o superare le prestazioni teoriche in certi scenari senza consumare area di silicio specifica. 🔄

I dati di prestazioni rivelano la nuova direzione

I dati ufficiali di Nvidia mostrano questa evoluzione con chiarezza. Il suo acceleratore più recente, Rubin, dichiara 33 teraflops in operazioni vettoriali FP64 per hardware, una cifra paragonabile a quella dell'H100 di anni fa. Tuttavia, attivando l'emulazione via software, Nvidia afferma che Rubin può raggiungere fino a 200 teraflops in calcoli matriciali FP64. Anche la generazione Blackwell, con questa tecnica, potrebbe raggiungere 150 teraflops, più del doppio del suo predecessore Hopper che esegue in modo nativo. 📊

Confronto chiave delle prestazioni:

Rubin (Hardware): 33 TFLOPS in FP64 vettoriale.
Rubin (Software): Fino a 200 TFLOPS in FP64 matriciale emulato.
Blackwell (Software): Circa 150 TFLOPS, superando ampiamente Hopper.

In numerose ricerche con partner e studi interni abbiamo scoperto che la precisione che otteniamo emulando è, come minimo, uguale alla precisione che otteniamo dai core tensoriali hardware.

La precisione validata impulsa il cambiamento

Dan Ernst, dirigente di Nvidia per il supercomputing, ha spiegato il motivo di questo cambio strategico. La validazione interna e con i partner ha confermato che l'accuratezza raggiunta emulando FP64 è almeno equivalente a quella di eseguire su core hardware dedicati. Questa scoperta permette a Nvidia di ottimizzare il design dei suoi chip per domini come l'intelligenza artificiale, dove prevalgono precisioni minori (FP32, FP16), senza trascurare le esigenze del settore del calcolo ad alte prestazioni (HPC) che ancora necessita di FP64. ⚖️

Vantaggi dell'emulazione via software:

Libera transistor e area nel chip per altre funzioni.
Permette di raggiungere picchi di prestazioni superiori in carichi di lavoro specifici.
Mantiene la precisione necessaria per applicazioni scientifiche e di ingegneria.

Una nuova architettura definita dal software

Sembra che, nella competizione per guidare l'intelligenza artificiale, destinare risorse di silicio a emulare invece di eseguire in modo nativo sia diventato il nuovo paradigma di efficienza architettonica. Questo è un cambio in cui il software non solo supporta l'hardware, ma ridefinisce fondamentalmente ciò che questo deve essere. Il confine tra i due si sfuma per creare soluzioni più versatili. 🚀