Wenn wir über KI-Cluster sprechen, ist der Engpass nicht immer die GPUs, sondern wie sie miteinander kommunizieren. Cisco hat den Silicon One G200 vorgestellt, einen Switching-Chip, der Tausende von Beschleunigern mit einer Latenz verbindet, die an Teleportation grenzt. Das ist keine Magie, sondern auf die Spitze getriebene Netzwerktechnik, damit Ihre Modelle nicht einschlafen, während sie auf Daten warten.
Architektur und Leistung des KI-Switches 🚀
Der G200 arbeitet auf der Switching-Ebene von Rechenzentren und bewältigt bis zu 800 Gbit/s pro Port mit einer Latenz im Submikrosekundenbereich. Sein Geheimnis liegt in einer Architektur mit gemeinsamem Speicher und einer für verteiltes Training optimierten Steuerebene. Er unterstützt Paket- und Zellenvermittlung, sodass Tausende von GPUs Gradienten synchronisieren können, ohne einen einzigen Taktzyklus zu verlieren. Er ist im Grunde ein Verkehrsmanager ohne Staus.
Der Chip, der dafür sorgt, dass sich Ihre GPUs nicht mehr um den Bus streiten 😅
Denn ja, wir alle wissen, dass der Aufbau eines Clusters aus 4090ern so ist, wie ein Familienweihnachtsessen zu organisieren: Zuerst wollen alle reden, dann hört keiner zu, und am Ende geben sie dem Router die Schuld. Mit dem G200 verspricht Cisco, dass sich Ihre GPUs wie schweigende Mönche verhalten und Daten ohne Gedränge weitergeben. Und wenn etwas schiefgeht, wissen Sie zumindest, dass das Problem nicht das Netzwerk ist, sondern dass Ihr Modell immer noch eine Blackbox ist.