Intel 更新其面向 Arc 显卡的 vLLM 容器

英特尔发布了 llm-scaler-vllm PV 1.4，这是其针对在 Arc 和 Arc Pro 图形硬件上运行 vLLM 而优化的 Docker 容器的新版本。此次更新带来了升级后的组件，例如基于 Linux 6.17 的内核、更新的 Compute Runtime 以及最新版本的 oneAPI 软件包。在软件方面，集成了 vLLM 0.14 和 PyTorch 2.10，旨在提升语言模型推理的性能。

技术示意图，展示英特尔 Arc GPU 处理大型语言模型推理请求，发光的数位流从标记有 vLLM 和 PyTorch 组件的 Docker 容器流入 GPU，计算内核流水线以半透明蓝色箭头可视化，连接 oneAPI 库和 Linux 内核 6.17，Arc Pro 显卡主动冷却风扇旋转，电路板走线脉冲橙色光芒，电影级工程可视化，逼真工业渲染，戏剧性侧光照明，透过玻璃面板可见详细硅芯片，机架服务器环境背景，推理过程中数据转换的动态效果

英特尔 Docker 容器的技术更新 🚀

新的 Linux 6.17 内核为 Arc GPU 提供了更好的支持，而更新的 Compute Runtime 则优化了 AI 工作负载的执行。vLLM 0.14 的集成使得大型模型的内存和注意力管理更加高效，PyTorch 2.10 则引入了动态编译的改进以及对新架构的支持。英特尔推荐此容器给那些希望在消费级图形硬件上部署 LLM 推理，而无需依赖专有解决方案的开发者。

英特尔押注消费级 GPU 用于 AI 🔥

因为显然，没有什么比用一块为玩《赛博朋克》设计的显卡来运行一个 700 亿参数的语言模型更能体现严肃的生产力了。但话说回来，如果你能让你的 Arc A770 不被共享内存拖垮，并且内核 6.17 不会搞崩你的系统，那么你将拥有一个低成本的推理工作站。当然，请确保手边备一个灭火器，以防风扇决定罢工休息一下。