Intel a lancé llm-scaler-vllm PV 1.4, une nouvelle version de son conteneur Docker optimisé pour exécuter vLLM sur le matériel graphique Arc et Arc Pro. Cette mise à jour apporte des composants actualisés, comme un noyau basé sur Linux 6.17, Compute Runtime et des packages oneAPI plus récents. Côté logiciel, vLLM 0.14 et PyTorch 2.10 sont intégrés, visant à améliorer les performances d'inférence des modèles de langage.
Nouveautés techniques dans le conteneur Docker d'Intel 🚀
Le nouveau noyau Linux 6.17 offre un meilleur support pour les GPU Arc, tandis que le Compute Runtime mis à jour optimise l'exécution des charges de travail d'IA. L'intégration de vLLM 0.14 permet une gestion plus efficace de la mémoire et de l'attention dans les grands modèles, et PyTorch 2.10 introduit des améliorations dans la compilation dynamique et le support de nouvelles architectures. Intel recommande ce conteneur aux développeurs cherchant à déployer l'inférence de LLMs sur du matériel graphique grand public sans recourir à des solutions propriétaires.
Intel et son pari sur les GPU de jeu pour l'IA 🔥
Parce que bien sûr, rien ne dit productivité sérieuse comme utiliser une carte graphique conçue pour jouer à Cyberpunk pour exécuter un modèle de langage de 70 milliards de paramètres. Mais bon, si tu arrives à empêcher ton Arc A770 de s'étouffer avec la mémoire partagée et que le noyau 6.17 ne fait pas planter ton système, tu auras une station d'inférence low-cost. Cela dit, assure-toi d'avoir un extincteur à portée de main au cas où le ventilateur déciderait de prendre une pause.