Intel aktualisiert seinen vLLM Container für Arc Grafikkarten

Intel hat llm-scaler-vllm PV 1.4 veröffentlicht, eine neue Version seines Docker-Containers, der für die Ausführung von vLLM auf Arc- und Arc-Pro-Grafikhardware optimiert ist. Dieses Update bringt aktualisierte Komponenten mit sich, wie einen Kernel basierend auf Linux 6.17, eine neuere Compute Runtime und aktuellere oneAPI-Pakete. Auf der Softwareseite werden vLLM 0.14 und PyTorch 2.10 integriert, um die Leistung bei der Inferenz von Sprachmodellen zu verbessern.

technische Illustration, die eine Intel Arc GPU bei der Verarbeitung einer Inferenzanfrage eines großen Sprachmodells zeigt, leuchtende Datenströme, die von einem mit vLLM- und PyTorch-Komponenten gekennzeichneten Docker-Container in die GPU fließen, Compute-Kernel-Pipelines, die als durchscheinende blaue Pfeile dargestellt werden und oneAPI-Bibliotheken sowie den Linux-Kernel 6.17 verbinden, Arc Pro Grafikkarte mit sich drehenden aktiven Kühlventilatoren, Leiterbahnen der Platine, die mit orangefarbenem Licht pulsieren, filmische technische Visualisierung, fotorealistischer Industrierender, dramatisches Seitenlicht, detaillierter Siliziumchip, der durch eine Glasscheibe sichtbar ist, Rack-Server-Umgebung im Hintergrund, dynamische Aktion der Datenumwandlung während der Inferenz

Technische Neuerungen im Intel Docker-Container 🚀

Der neue Linux-Kernel 6.17 bietet eine verbesserte Unterstützung für Arc-GPUs, während die aktualisierte Compute Runtime die Ausführung von KI-Workloads optimiert. Die Integration von vLLM 0.14 ermöglicht eine effizientere Speicher- und Aufmerksamkeitsverwaltung in großen Modellen, und PyTorch 2.10 führt Verbesserungen bei der dynamischen Kompilierung und Unterstützung für neue Architekturen ein. Intel empfiehlt diesen Container für Entwickler, die LLM-Inferenz auf Consumer-Grafikhardware bereitstellen möchten, ohne auf proprietäre Lösungen zurückzugreifen.

Intel und sein Engagement für Spieler-GPUs für KI 🔥

Denn klar, nichts sagt ernsthafte Produktivität so sehr aus, wie eine Grafikkarte zu verwenden, die dafür entwickelt wurde, Cyberpunk zu spielen, um ein Sprachmodell mit 70 Milliarden Parametern auszuführen. Aber hey, wenn du es schaffst, dass deine Arc A770 nicht am gemeinsamen Speicher erstickt und Kernel 6.17 dir das System nicht abschießt, wirst du eine Low-Cost-Inferenz-Station haben. Allerdings solltest du sicherstellen, dass du einen Feuerlöscher in der Nähe hast, falls der Lüfter beschließt, eine Pause einzulegen.