Quando falamos de clusters de IA, o gargalo nem sempre são as GPUs, mas sim como elas se comunicam entre si. A Cisco apresentou o Silicon One G200, um chip de comutação projetado para conectar milhares de aceleradores com uma latência que parece teletransporte. Não é mágica, é engenharia de rede levada ao extremo para que seus modelos não fiquem esperando dados.
Arquitetura e desempenho do comutador para IA 🚀
O G200 opera na camada de comutação de centros de dados, gerenciando até 800 Gbps por porta com uma latência de submicrossegundos. Seu segredo está em uma arquitetura de memória compartilhada e um plano de controle otimizado para tráfego de treinamento distribuído. Suporta comutação de pacotes e células, permitindo que milhares de GPUs sincronizem gradientes sem perder um ciclo de clock. É, basicamente, um gerenciador de tráfego sem congestionamentos.
O chip que fará suas GPUs pararem de brigar pelo barramento 😅
Porque sim, todos sabemos que montar um cluster de 4090s é como organizar um jantar de Natal em família: no começo todos querem falar, depois ninguém escuta e acabam culpando o roteador. Com o G200, a Cisco promete que suas GPUs se comportarão como monges em silêncio, passando dados sem empurrões. E se algo der errado, pelo menos você saberá que o problema não é a rede, mas sim que seu modelo continua sendo uma caixa preta.