Intel ha lanzado llm-scaler-vllm PV 1.4, una nueva versión de su contenedor Docker optimizado para ejecutar vLLM en hardware gráfico Arc y Arc Pro. Esta actualización trae componentes actualizados, como un kernel basado en Linux 6.17, Compute Runtime y paquetes oneAPI más recientes. En el lado del software, se incorporan vLLM 0.14 y PyTorch 2.10, buscando mejorar el rendimiento en inferencia de modelos de lenguaje.
Novedades técnicas en el contenedor Docker de Intel 🚀
El nuevo kernel Linux 6.17 ofrece mejor soporte para las GPU Arc, mientras que el Compute Runtime actualizado optimiza la ejecución de cargas de trabajo de IA. La integración de vLLM 0.14 permite una gestión más eficiente de la memoria y la atención en modelos grandes, y PyTorch 2.10 introduce mejoras en la compilación dinámica y el soporte para nuevas arquitecturas. Intel recomienda este contenedor para desarrolladores que buscan desplegar inferencia de LLMs en hardware gráfico de consumo sin recurrir a soluciones propietarias.
Intel y su apuesta por las GPUs de juguete para IA 🔥
Porque claro, nada dice productividad seria como usar una tarjeta gráfica diseñada para jugar al Cyberpunk para ejecutar un modelo de lenguaje de 70 mil millones de parámetros. Pero oye, si logras que tu Arc A770 no se ahogue con la memoria compartida y el kernel 6.17 no te pete el sistema, tendrás una estación de inferencia low-cost. Eso sí, asegúrate de tener un extintor cerca por si el ventilador decide tomarse un descanso.