英特尔发布了 llm-scaler-vllm PV 1.4,这是其针对在 Arc 和 Arc Pro 图形硬件上运行 vLLM 而优化的 Docker 容器的新版本。此次更新带来了升级后的组件,例如基于 Linux 6.17 的内核、更新的 Compute Runtime 以及最新版本的 oneAPI 软件包。在软件方面,集成了 vLLM 0.14 和 PyTorch 2.10,旨在提升语言模型推理的性能。
英特尔 Docker 容器的技术更新 🚀
新的 Linux 6.17 内核为 Arc GPU 提供了更好的支持,而更新的 Compute Runtime 则优化了 AI 工作负载的执行。vLLM 0.14 的集成使得大型模型的内存和注意力管理更加高效,PyTorch 2.10 则引入了动态编译的改进以及对新架构的支持。英特尔推荐此容器给那些希望在消费级图形硬件上部署 LLM 推理,而无需依赖专有解决方案的开发者。
英特尔押注消费级 GPU 用于 AI 🔥
因为显然,没有什么比用一块为玩《赛博朋克》设计的显卡来运行一个 700 亿参数的语言模型更能体现严肃的生产力了。但话说回来,如果你能让你的 Arc A770 不被共享内存拖垮,并且内核 6.17 不会搞崩你的系统,那么你将拥有一个低成本的推理工作站。当然,请确保手边备一个灭火器,以防风扇决定罢工休息一下。