Intel hat llm-scaler-vllm PV 1.4 veröffentlicht, eine neue Version seines Docker-Containers, der für die Ausführung von vLLM auf Arc- und Arc-Pro-Grafikhardware optimiert ist. Dieses Update bringt aktualisierte Komponenten mit sich, wie einen Kernel basierend auf Linux 6.17, eine neuere Compute Runtime und aktuellere oneAPI-Pakete. Auf der Softwareseite werden vLLM 0.14 und PyTorch 2.10 integriert, um die Leistung bei der Inferenz von Sprachmodellen zu verbessern.
Technische Neuerungen im Intel Docker-Container 🚀
Der neue Linux-Kernel 6.17 bietet eine verbesserte Unterstützung für Arc-GPUs, während die aktualisierte Compute Runtime die Ausführung von KI-Workloads optimiert. Die Integration von vLLM 0.14 ermöglicht eine effizientere Speicher- und Aufmerksamkeitsverwaltung in großen Modellen, und PyTorch 2.10 führt Verbesserungen bei der dynamischen Kompilierung und Unterstützung für neue Architekturen ein. Intel empfiehlt diesen Container für Entwickler, die LLM-Inferenz auf Consumer-Grafikhardware bereitstellen möchten, ohne auf proprietäre Lösungen zurückzugreifen.
Intel und sein Engagement für Spieler-GPUs für KI 🔥
Denn klar, nichts sagt ernsthafte Produktivität so sehr aus, wie eine Grafikkarte zu verwenden, die dafür entwickelt wurde, Cyberpunk zu spielen, um ein Sprachmodell mit 70 Milliarden Parametern auszuführen. Aber hey, wenn du es schaffst, dass deine Arc A770 nicht am gemeinsamen Speicher erstickt und Kernel 6.17 dir das System nicht abschießt, wirst du eine Low-Cost-Inferenz-Station haben. Allerdings solltest du sicherstellen, dass du einen Feuerlöscher in der Nähe hast, falls der Lüfter beschließt, eine Pause einzulegen.