AIクラスターについて語るとき、ボトルネックは必ずしもGPUではなく、それらがどのように通信するかです。Ciscoは、まるでテレポートのようなレイテンシで数千のアクセラレータを接続するために設計されたスイッチングチップ、Silicon One G200を発表しました。これは魔法ではなく、モデルがデータを待ってスリープしないようにするための、極限まで追求されたネットワークエンジニアリングです。
AI向けスイッチのアーキテクチャとパフォーマンス 🚀
G200はデータセンターのスイッチング層で動作し、ポートあたり最大800 Gbps、サブマイクロ秒のレイテンシを実現します。その秘密は、共有メモリアーキテクチャと、分散トレーニングトラフィック向けに最適化されたコントロールプレーンにあります。パケットスイッチングとセルスイッチングをサポートし、数千のGPUがクロックサイクルを無駄にすることなく勾配を同期できるようにします。基本的には、渋滞知らずのトラフィックマネージャーです。
GPU同士のバス争いを終わらせるチップ 😅
そうです、4090クラスターを構築するのは、まるで大家族のクリスマスディナーを企画するようなものです。最初はみんな話したがり、その後は誰も聞かなくなり、最後にはルーターのせいにします。G200を使えば、CiscoはあなたのGPUがまるで沈黙の僧侶のように振る舞い、押し合うことなくデータを受け渡すことを約束します。そして、もし何か問題が起きても、少なくとも問題がネットワークではなく、あなたのモデルが依然としてブラックボックスであることは分かるでしょう。