Intel aggiorna il suo contenitore vLLM per le schede grafiche Arc

Intel ha lanciato llm-scaler-vllm PV 1.4, una nuova versione del suo contenitore Docker ottimizzato per eseguire vLLM su hardware grafico Arc e Arc Pro. Questo aggiornamento porta componenti aggiornati, come un kernel basato su Linux 6.17, Compute Runtime e pacchetti oneAPI più recenti. Sul lato software, vengono incorporati vLLM 0.14 e PyTorch 2.10, con l'obiettivo di migliorare le prestazioni nell'inferenza dei modelli linguistici.

illustrazione tecnica che mostra una GPU Intel Arc mentre elabora una richiesta di inferenza di un modello linguistico di grandi dimensioni, flussi di dati luminosi che fluiscono da un contenitore Docker etichettato con componenti vLLM e PyTorch verso la GPU, pipeline del kernel di calcolo visualizzate come frecce blu traslucide che collegano le librerie oneAPI e il kernel Linux 6.17, scheda grafica Arc Pro con ventole di raffreddamento attive in rotazione, tracce del circuito stampato pulsanti di luce arancione, visualizzazione cinematografica ingegneristica, rendering industriale fotorealistico, illuminazione laterale drammatica, die di silicio dettagliato visibile attraverso il pannello di vetro, ambiente server rack sullo sfondo, azione dinamica dei dati trasformati durante l'inferenza

Novità tecniche nel contenitore Docker di Intel 🚀

Il nuovo kernel Linux 6.17 offre un supporto migliore per le GPU Arc, mentre il Compute Runtime aggiornato ottimizza l'esecuzione dei carichi di lavoro di IA. L'integrazione di vLLM 0.14 consente una gestione più efficiente della memoria e dell'attenzione nei modelli grandi, e PyTorch 2.10 introduce miglioramenti nella compilazione dinamica e nel supporto per nuove architetture. Intel raccomanda questo contenitore per gli sviluppatori che cercano di distribuire l'inferenza di LLM su hardware grafico consumer senza ricorrere a soluzioni proprietarie.

Intel e la sua scommessa sulle GPU giocattolo per l'IA 🔥

Perché certo, niente dice produttività seria come usare una scheda grafica progettata per giocare a Cyberpunk per eseguire un modello linguistico da 70 miliardi di parametri. Ma ehi, se riesci a far sì che la tua Arc A770 non soffochi con la memoria condivisa e il kernel 6.17 non ti manda in crash il sistema, avrai una stazione di inferenza low-cost. Certo, assicurati di avere un estintore a portata di mano nel caso in cui la ventola decida di prendersi una pausa.