A Intel lançou o llm-scaler-vllm PV 1.4, uma nova versão de seu contêiner Docker otimizado para executar vLLM em hardware gráfico Arc e Arc Pro. Esta atualização traz componentes atualizados, como um kernel baseado em Linux 6.17, Compute Runtime e pacotes oneAPI mais recentes. No lado do software, são incorporados vLLM 0.14 e PyTorch 2.10, visando melhorar o desempenho na inferência de modelos de linguagem.
Novidades técnicas no contêiner Docker da Intel 🚀
O novo kernel Linux 6.17 oferece melhor suporte para as GPUs Arc, enquanto o Compute Runtime atualizado otimiza a execução de cargas de trabalho de IA. A integração do vLLM 0.14 permite um gerenciamento mais eficiente da memória e da atenção em modelos grandes, e o PyTorch 2.10 introduz melhorias na compilação dinâmica e suporte para novas arquiteturas. A Intel recomenda este contêiner para desenvolvedores que buscam implantar inferência de LLMs em hardware gráfico de consumo sem recorrer a soluções proprietárias.
Intel e sua aposta em GPUs de brinquedo para IA 🔥
Porque claro, nada diz produtividade séria como usar uma placa gráfica projetada para jogar Cyberpunk para executar um modelo de linguagem de 70 bilhões de parâmetros. Mas ei, se você conseguir que sua Arc A770 não se afogue com a memória compartilhada e o kernel 6.17 não derrubar o sistema, você terá uma estação de inferência de baixo custo. Só não esqueça de ter um extintor por perto caso o ventilador decida tirar uma folga.