Intel、Arcグラフィックス向けvLLMコンテナを更新

Intelは、vLLMをArcおよびArc Proグラフィックスハードウェアで実行するために最適化されたDockerコンテナの新バージョン、llm-scaler-vllm PV 1.4をリリースしました。このアップデートでは、Linux 6.17ベースのカーネル、Compute Runtime、最新のoneAPIパッケージなど、コンポーネントが更新されています。ソフトウェア面では、vLLM 0.14とPyTorch 2.10が組み込まれており、言語モデルの推論パフォーマンスの向上を目指しています。

Intel Arc GPUが大規模言語モデルの推論リクエストを処理している様子を示す技術イラスト。vLLMとPyTorchコンポーネントのラベルが付いたDockerコンテナからGPUへと流れる光るデータストリーム、oneAPIライブラリとLinuxカーネル6.17を接続する半透明の青い矢印として視覚化された計算カーネルパイプライン、アクティブな冷却ファンが回転するArc Proグラフィックスカード、オレンジ色の光で脈動する回路基板のトレース、シネマティックなエンジニアリングビジュアライゼーション、フォトリアリスティックな工業用レンダリング、劇的なサイドライティング、ガラスパネル越しに見える詳細なシリコンダイ、背景のラックサーバー環境、推論中にデータが変換されるダイナミックなアクション

Intel Dockerコンテナの技術的新機能 🚀

新しいLinux 6.17カーネルはArc GPUのサポートを改善し、更新されたCompute RuntimeはAIワークロードの実行を最適化します。vLLM 0.14の統合により、大規模モデルにおけるメモリとアテンションのより効率的な管理が可能になり、PyTorch 2.10は動的コンパイルの改善と新しいアーキテクチャのサポートをもたらします。Intelは、独自のソリューションに頼ることなく、コンシューマー向けグラフィックスハードウェアでLLM推論を展開したい開発者にこのコンテナを推奨しています。

Intel、AI向けおもちゃGPUに注力 🔥

だって、サイバーパンクをプレイするために設計されたグラフィックスカードを使って700億パラメータの言語モデルを実行することが、本格的な生産性を意味するなんて、他にないですからね。でも、もしあなたのArc A770が共有メモリで窒息せず、カーネル6.17がシステムをクラッシュさせなければ、低コストの推論ステーションを手に入れられるでしょう。ただし、ファンが休憩を決め込んだ場合に備えて、消火器を近くに置いておくことをお忘れなく。