Nvidia изменяет способ выполнения вычислений двойной точности своими ускорителями

Ilustración conceptual de un chip Nvidia con circuitos luminosos, mostrando cómo el software emula funciones de hardware para cálculos de doble precisión.

Nvidia изменяет способ выполнения вычислений двойной точности своими ускорителями

Компания Nvidia изменила свой подход к обработке операций с плавающей запятой 64 бита (FP64) в своих процессорах для суперкомпьютеров. По сообщениям, компания прекратила разработку специализированных аппаратных блоков для этой цели в новых поколениях. Вместо этого она полагается на эмуляцию этих задач с помощью алгоритмов в своих библиотеках CUDA. Этот метод позволяет достигать или превосходить теоретическую производительность в определенных сценариях без использования специальной площади кремния. 🔄

Цифры производительности раскрывают новое направление

Официальные данные Nvidia четко показывают эту эволюцию. Ее самый новый ускоритель, Rubin, заявляет 33 терафлопса в векторных операциях FP64 на аппаратном уровне, что сопоставимо с показателями H100 нескольких лет назад. Однако при активации эмуляции на программном уровне Nvidia утверждает, что Rubin может достигать до 200 терафлопс в матричными вычислениях FP64. Даже поколение Blackwell с этой техникой может достигать 150 терафлопс, более чем вдвое превышая своего предшественника Hopper при нативном выполнении. 📊

Ключевое сравнение производительности:

Rubin (аппаратное): 33 TFLOPS в векторном FP64.
Rubin (программное): До 200 TFLOPS в эмулированном матричном FP64.
Blackwell (программное): Около 150 TFLOPS, значительно превосходя Hopper.

В многочисленных исследованиях с партнерами и внутренних исследованиях мы обнаружили, что точность, достигаемая при эмуляции, как минимум равна точности, получаемой от аппаратных тензорных ядер.

Подтвержденная точность стимулирует изменения

Дэн Эрнст, руководитель Nvidia по суперкомпьютерам, объяснил причину этого стратегического поворота. Внутренняя проверка и с партнерами подтвердила, что точность, достигаемая при эмуляции FP64, как минимум эквивалентна точности выполнения на выделенных аппаратных ядрах. Это открытие позволяет Nvidia оптимизировать дизайн своих чипов для областей вроде искусственного интеллекта, где преобладают меньшие точности (FP32, FP16), не пренебрегая при этом требованиями сектора высокопроизводительных вычислений (HPC), который все еще нуждается в FP64. ⚖️

Преимущества программной эмуляции:

Освобождает транзисторы и площадь чипа для других функций.
Позволяет достигать пиковых значений производительности в специфических рабочих нагрузках.
Сохраняет необходимую точность для научных и инженерных приложений.

Новая архитектура, определяемая программным обеспечением

Похоже, в конкуренции за лидерство в искусственном интеллекте выделение кремниевых ресурсов на эмуляцию вместо нативного выполнения стало новым парадигмой архитектурной эффективности. Это поворот, где программное обеспечение не просто поддерживает аппаратное, а фундаментально переопределяет то, чем оно должно быть. Граница между ними размывается для создания более универсальных решений. 🚀