Nvidia modifica cómo sus aceleradores ejecutan cálculos de doble precisión

Nvidia modifica cómo sus aceleradores ejecutan cálculos de doble precisión
La empresa Nvidia ha girado su enfoque para manejar operaciones de coma flotante de 64 bits (FP64) en sus procesadores para supercomputación. Según informes, la compañía detuvo el desarrollo de unidades de hardware especializadas para este fin en sus nuevas generaciones. En su lugar, confía en simular estas tareas mediante algoritmos dentro de sus bibliotecas CUDA. Este método le permite igualar o superar el rendimiento teórico en ciertos escenarios sin consumir área de silicio específica. 🔄
Las cifras de rendimiento revelan la nueva dirección
Los datos oficiales de Nvidia muestran esta evolución con claridad. Su acelerador más reciente, Rubin, declara 33 teraflops en operaciones vectoriales FP64 por hardware, una cifra comparable a la del H100 de hace años. Sin embargo, al activar la emulación por software, Nvidia afirma que Rubin puede lograr hasta 200 teraflops en cálculos matriciales FP64. Incluso la generación Blackwell, con esta técnica, podría alcanzar 150 teraflops, más del doble que su predecesor Hopper ejecutando de forma nativa. 📊
Comparativa clave de rendimiento:- Rubin (Hardware): 33 TFLOPS en FP64 vectorial.
- Rubin (Software): Hasta 200 TFLOPS en FP64 matricial emulado.
- Blackwell (Software): Alrededor de 150 TFLOPS, superando ampliamente a Hopper.
En numerosas investigaciones con socios y estudios internos descubrimos que la precisión que logramos al emular es, como mínimo, igual a la precisión que obtenemos de los núcleos tensoriales de hardware.
La precisión validada impulsa el cambio
Dan Ernst, directivo de Nvidia para supercomputación, explicó la razón de este giro estratégico. La validación interna y con partners confirmó que la exactitud lograda al emular FP64 es al menos equivalente a la de ejecutar en núcleos de hardware dedicados. Este hallazgo permite a Nvidia optimizar el diseño de sus chips para dominios como la inteligencia artificial, donde priman precisiones menores (FP32, FP16), sin dejar de atender las demandas del sector de cómputo de alto rendimiento (HPC) que aún necesita FP64. ⚖️
Ventajas de la emulación por software:- Libera transistores y área en el chip para otras funciones.
- Permite alcanzar picos de rendimiento superiores en cargas de trabajo específicas.
- Mantiene la precisión necesaria para aplicaciones científicas y de ingeniería.
Una nueva arquitectura definida por el software
Parece que, en la competencia por liderar la inteligencia artificial, destinar recursos de silicio a emular en vez de a ejecutar de forma nativa se ha convertido en el nuevo paradigma de eficiencia arquitectónica. Este es un giro donde el software no solo apoya al hardware, sino que redefine fundamentalmente lo que este necesita ser. La frontera entre ambos se desdibuja para crear soluciones más versátiles. 🚀