NVIDIA met à jour son vaisseau amiral avec le GPU H200 Tensor Core, une évolution directe du H100 qui résout le goulot d'étranglement de la mémoire. Sa grande nouveauté est l'intégration de la HBM3e, une norme qui élève la bande passante jusqu'à 4,8 To/s. Cela permet de déplacer des données massives sans engorgement, un élément crucial pour alimenter les grands modèles de langage (LLM) comme GPT ou LLaMA.
HBM3e : la bande passante exigée par les LLM 🚀
Le H200 ne réinvente pas l'architecture de calcul, mais optimise le flux de données. Avec 141 Go de mémoire HBM3e, il offre 76 % de capacité en plus que le H100 et double la bande passante effective dans les charges d'inférence. Cela réduit considérablement les temps de traitement des modèles aux billions de paramètres, où déplacer des données pèse plus lourd que les calculer. C'est une réponse directe à la demande de mise à l'échelle des modèles sans saturer le bus mémoire.
Le H200 : pour que votre LLM ne fasse pas de régime 🍔
Enfin, les ingénieurs en IA pourront cesser de regarder avec envie les fiches techniques du H100. Le H200 arrive pour que les modèles les plus gourmands ingèrent des données à 4,8 To/s sans s'étouffer. Bien sûr, si votre budget pleurait déjà avec le H100, préparez-vous à une nouvelle série de mouchoirs. Parce que, évidemment, pendant que la mémoire devient plus rapide, votre compte en banque se déplacera probablement à la vitesse d'une disquette.