AI 클러스터에 대해 이야기할 때, 병목 현상은 항상 GPU만의 문제가 아니라 GPU 간의 통신 방식에 있습니다. Cisco는 수천 개의 가속기를 순간 이동에 가까운 지연 시간으로 연결하도록 설계된 스위칭 칩인 Silicon One G200을 발표했습니다. 이것은 마법이 아니라, 모델이 데이터를 기다리며 잠들지 않도록 하기 위해 극한으로 끌어올린 네트워크 엔지니어링입니다.
AI를 위한 스위치의 아키텍처 및 성능 🚀
G200은 데이터 센터 스위칭 계층에서 작동하며, 포트당 최대 800Gbps를 마이크로초 미만의 지연 시간으로 처리합니다. 그 비결은 공유 메모리 아키텍처와 분산 학습 트래픽에 최적화된 제어 평면에 있습니다. 패킷 및 셀 스위칭을 지원하여 수천 개의 GPU가 클록 사이클 하나 낭비하지 않고 그래디언트를 동기화할 수 있도록 합니다. 기본적으로 정체 없는 트래픽 관리자입니다.
GPU가 버스 경쟁을 멈추게 할 칩 😅
네, 우리 모두 4090 클러스터를 구축하는 것이 가족 크리스마스 저녁 식사를 준비하는 것과 같다는 것을 압니다. 처음에는 모두가 말하고 싶어 하지만, 아무도 듣지 않으며 결국 라우터를 탓하게 됩니다. G200을 통해 Cisco는 GPU가 마치 조용한 승려처럼 행동하며, 서로 밀치지 않고 데이터를 전달할 것이라고 약속합니다. 그리고 문제가 발생하더라도 적어도 네트워크가 문제가 아니라 모델이 여전히 블랙박스라는 것을 알게 될 것입니다.