Nvidia modifica como seus aceleradores executam cálculos de dupla precisão

Ilustración conceptual de un chip Nvidia con circuitos luminosos, mostrando cómo el software emula funciones de hardware para cálculos de doble precisión.

Nvidia modifica como seus aceleradores executam cálculos de dupla precisão

A empresa Nvidia girou seu foco para lidar com operações de ponto flutuante de 64 bits (FP64) em seus processadores para supercomputação. Segundo relatos, a companhia parou o desenvolvimento de unidades de hardware especializadas para esse fim em suas novas gerações. Em vez disso, confia em simular essas tarefas por meio de algoritmos dentro de suas bibliotecas CUDA. Esse método permite igualar ou superar o desempenho teórico em certos cenários sem consumir área de silício específica. 🔄

Os números de desempenho revelam a nova direção

Os dados oficiais da Nvidia mostram essa evolução com clareza. Seu acelerador mais recente, Rubin, declara 33 teraflops em operações vetoriais FP64 por hardware, um número comparável ao do H100 de anos atrás. No entanto, ao ativar a emulação por software, a Nvidia afirma que o Rubin pode alcançar até 200 teraflops em cálculos matriciais FP64. Até a geração Blackwell, com essa técnica, poderia atingir 150 teraflops, mais que o dobro de seu antecessor Hopper executando de forma nativa. 📊

Comparação chave de desempenho:

Rubin (Hardware): 33 TFLOPS em FP64 vetorial.
Rubin (Software): Até 200 TFLOPS em FP64 matricial emulado.
Blackwell (Software): Cerca de 150 TFLOPS, superando amplamente o Hopper.

Em numerosas pesquisas com parceiros e estudos internos descobrimos que a precisão que alcançamos ao emular é, no mínimo, igual à precisão que obtemos dos núcleos tensoriais de hardware.

A precisão validada impulsiona a mudança

Dan Ernst, executivo da Nvidia para supercomputação, explicou o motivo desse giro estratégico. A validação interna e com parceiros confirmou que a exatidão alcançada ao emular FP64 é pelo menos equivalente à de executar em núcleos de hardware dedicados. Essa descoberta permite à Nvidia otimizar o design de seus chips para domínios como a inteligência artificial, onde predominam precisões menores (FP32, FP16), sem deixar de atender às demandas do setor de computação de alto desempenho (HPC) que ainda precisa de FP64. ⚖️

Vantagens da emulação por software:

Libera transistores e área no chip para outras funções.
Permite alcançar picos de desempenho superiores em cargas de trabalho específicas.
Mantém a precisão necessária para aplicações científicas e de engenharia.

Uma nova arquitetura definida pelo software

Parece que, na competição para liderar a inteligência artificial, destinar recursos de silício a emular em vez de executar de forma nativa se tornou o novo paradigma de eficiência arquitetônica. Esse é um giro onde o software não só apoia o hardware, mas redefine fundamentalmente o que este precisa ser. A fronteira entre ambos se desfaz para criar soluções mais versáteis. 🚀