Intel atualiza seu contêiner vLLM para gráficos Arc

A Intel lançou o llm-scaler-vllm PV 1.4, uma nova versão de seu contêiner Docker otimizado para executar vLLM em hardware gráfico Arc e Arc Pro. Esta atualização traz componentes atualizados, como um kernel baseado em Linux 6.17, Compute Runtime e pacotes oneAPI mais recentes. No lado do software, são incorporados vLLM 0.14 e PyTorch 2.10, visando melhorar o desempenho na inferência de modelos de linguagem.

ilustração técnica mostrando uma GPU Intel Arc processando uma solicitação de inferência de modelo de linguagem grande, fluxos de dados brilhantes fluindo de um contêiner Docker rotulado com componentes vLLM e PyTorch para a GPU, pipelines de kernel de computação visualizados como setas azuis translúcidas conectando bibliotecas oneAPI e kernel Linux 6.17, placa gráfica Arc Pro com ventoinhas de resfriamento ativas girando, traços de placa de circuito pulsando com luz laranja, visualização cinematográfica de engenharia, renderização industrial fotorrealista, iluminação lateral dramática, silício detalhado visível através de painel de vidro, ambiente de servidor rack ao fundo, ação dinâmica de dados sendo transformados durante a inferência

Novidades técnicas no contêiner Docker da Intel 🚀

O novo kernel Linux 6.17 oferece melhor suporte para as GPUs Arc, enquanto o Compute Runtime atualizado otimiza a execução de cargas de trabalho de IA. A integração do vLLM 0.14 permite um gerenciamento mais eficiente da memória e da atenção em modelos grandes, e o PyTorch 2.10 introduz melhorias na compilação dinâmica e suporte para novas arquiteturas. A Intel recomenda este contêiner para desenvolvedores que buscam implantar inferência de LLMs em hardware gráfico de consumo sem recorrer a soluções proprietárias.

Intel e sua aposta em GPUs de brinquedo para IA 🔥

Porque claro, nada diz produtividade séria como usar uma placa gráfica projetada para jogar Cyberpunk para executar um modelo de linguagem de 70 bilhões de parâmetros. Mas ei, se você conseguir que sua Arc A770 não se afogue com a memória compartilhada e o kernel 6.17 não derrubar o sistema, você terá uma estação de inferência de baixo custo. Só não esqueça de ter um extintor por perto caso o ventilador decida tirar uma folga.