特定のGPUを搭載したインスタンスを契約しても、得られるパフォーマンスは運次第です。メーカーはシリコンの品質に応じてチップをグレード分けしており、クラウドコンピューティング企業はこれらのGPUを不均等に割り当てています。その結果、同じGPUモデルでも、AIタスクにおいて最大30%ものパフォーマンス差が生じ、トレーニング時間だけでなくプロジェクトの最終的なコストにも影響を及ぼします。
チップのグレード分けとAI開発への影響 🎲
NVIDIAは、各GPUのエネルギー効率とオーバークロック能力に基づいてビンを割り当てます。品質の高いユニットはプレミアム顧客やハイパフォーマンスコンピューティング用途に回され、品質の低いものは低価格帯のインスタンスに割り当てられます。つまり、同じインスタンスを契約した二人の開発者でも、全く異なる体験をする可能性があります。一人はトレーニングを10時間で完了する一方、運の悪いもう一人は13時間かかるかもしれません。この変動性は現実のものであり、高度な監視ツールなしでは予測が困難です。
シリコンルーレット:良いGPUを引いた? ⚡
クラウド上のGPUをレンタルするのは、宝くじを買うようなものですが、一等賞はありません。同僚と同じ料金を支払っても、まるで90年代の計算機のようなパフォーマンスしかないGPUを掴まされるかもしれません。最悪なのは、文句も言えないことです。契約書にはサービスは同等であると書いてあるからです。ですから、ある人はモデルを驚異的な速さでトレーニングする一方、別の人はプログレスバーを眺めながら、手計算の方が速いのではないかと自問自答することになるのです。