
Nvidiaがアクセラレータでの倍精度計算の実行方法を変更
企業Nvidiaは、スーパーコンピューティング向けプロセッサでの64ビット浮動小数点演算(FP64)の処理方法に焦点をシフトしました。報告によると、同社は新世代でこの目的のための専用ハードウェアユニットの開発を停止しました。代わりに、CUDAライブラリ内のアルゴリズムでこれらのタスクをシミュレートすることに依存しています。この方法により、特定のシナリオで理論性能に匹敵または上回ることができ、特定のシリコン面積を消費せずに済みます。🔄
性能数値が新たな方向性を明らかに
Nvidiaの公式データは、この進化を明確に示しています。最先端のアクセラレータRubinは、ハードウェアによるFP64ベクトル演算で33テラフロップスを宣言しており、数年前のH100と同等です。しかし、ソフトウェアによるエミュレーションを有効にすると、NvidiaはRubinが行列FP64計算で最大200テラフロップスを達成可能だと主張しています。Blackwell世代もこの手法で150テラフロップスに達し、前世代のHopperのネイティブ実行の2倍以上です。📊
主要な性能比較:- Rubin (Hardware): FP64ベクトルで33 TFLOPS。
- Rubin (Software): エミュレートされたFP64行列で最大200 TFLOPS。
- Blackwell (Software): 約150 TFLOPSで、Hopperを大幅に上回る。
パートナーとの多数の研究と内部研究で、エミュレーションで達成する精度が、ハードウェアのテンソルコアから得られる精度と同等以上であることがわかりました。
検証された精度が変化を推進
Nvidiaのスーパーコンピューティング責任者Dan Ernst氏は、この戦略的シフトの理由を説明しました。内部およびパートナーとの検証により、FP64をエミュレートする際の精度が、専用ハードウェアコアでの実行と同等以上であることが確認されました。この発見により、Nvidiaはチップ設計を最適化でき、FP32やFP16などの低精度が優先される人工知能などの領域に注力しつつ、高性能コンピューティング(HPC)セクターのFP64需要にも対応できます。⚖️
ソフトウェアエミュレーションの利点:- チップのトランジスタと面積を他の機能に解放。
- 特定のワークロードで優れたピーク性能を達成。
- 科学・工学アプリケーションに必要な精度を維持。
ソフトウェアで定義される新アーキテクチャ
人工知能のリーダーシップを競う中で、ネイティブ実行ではなくエミュレートするためにシリコンリソースを割り当てることは、アーキテクチャ効率の新パラダイムとなっています。ここではソフトウェアがハードウェアを単にサポートするだけでなく、その本質を再定義します。両者の境界が曖昧になり、より汎用的なソリューションを生み出します。🚀