Intel met à jour son conteneur vLLM pour les graphiques Arc

Intel a lancé llm-scaler-vllm PV 1.4, une nouvelle version de son conteneur Docker optimisé pour exécuter vLLM sur le matériel graphique Arc et Arc Pro. Cette mise à jour apporte des composants actualisés, comme un noyau basé sur Linux 6.17, Compute Runtime et des packages oneAPI plus récents. Côté logiciel, vLLM 0.14 et PyTorch 2.10 sont intégrés, visant à améliorer les performances d'inférence des modèles de langage.

illustration technique montrant un GPU Intel Arc traitant une requête d'inférence de grand modèle de langage, des flux de données lumineux s'écoulant d'un conteneur Docker étiqueté avec les composants vLLM et PyTorch vers le GPU, des pipelines de noyau de calcul visualisés comme des flèches bleues translucides reliant les bibliothèques oneAPI et le noyau Linux 6.17, carte graphique Arc Pro avec des ventilateurs de refroidissement actifs en rotation, des pistes de circuit imprimé pulsant d'une lumière orange, visualisation d'ingénierie cinématographique, rendu industriel photoréaliste, éclairage latéral dramatique, puce de silicium détaillée visible à travers un panneau de verre, environnement de serveur en rack en arrière-plan, action dynamique des données transformées pendant l'inférence

Nouveautés techniques dans le conteneur Docker d'Intel 🚀

Le nouveau noyau Linux 6.17 offre un meilleur support pour les GPU Arc, tandis que le Compute Runtime mis à jour optimise l'exécution des charges de travail d'IA. L'intégration de vLLM 0.14 permet une gestion plus efficace de la mémoire et de l'attention dans les grands modèles, et PyTorch 2.10 introduit des améliorations dans la compilation dynamique et le support de nouvelles architectures. Intel recommande ce conteneur aux développeurs cherchant à déployer l'inférence de LLMs sur du matériel graphique grand public sans recourir à des solutions propriétaires.

Intel et son pari sur les GPU de jeu pour l'IA 🔥

Parce que bien sûr, rien ne dit productivité sérieuse comme utiliser une carte graphique conçue pour jouer à Cyberpunk pour exécuter un modèle de langage de 70 milliards de paramètres. Mais bon, si tu arrives à empêcher ton Arc A770 de s'étouffer avec la mémoire partagée et que le noyau 6.17 ne fait pas planter ton système, tu auras une station d'inférence low-cost. Cela dit, assure-toi d'avoir un extincteur à portée de main au cas où le ventilateur déciderait de prendre une pause.