تقوم NVIDIA بتحديث رائدتها باستخدام وحدة معالجة الرسوميات Tensor Core H200، وهي تطور مباشر لـ H100 يحل عنق الزجاجة في الذاكرة. تكمن حداثتها الكبرى في دمج HBM3e، وهو معيار يرفع عرض النطاق الترددي إلى 4.8 تيرابايت/ثانية. وهذا يسمح بنقل البيانات الضخمة دون اختناقات، وهو أمر بالغ الأهمية لتغذية نماذج اللغة واسعة النطاق (LLMs) مثل GPT أو LLaMA.
HBM3e: عرض النطاق الترددي الذي تتطلبه نماذج LLMs 🚀
لا تعيد H200 اختراع بنية الحوسبة، بل تعمل على تحسين تدفق البيانات. بفضل سعة ذاكرة HBM3e البالغة 141 جيجابايت، توفر سعة أكبر بنسبة 76% من H100 وتضاعف عرض النطاق الترددي الفعال في أعباء عمل الاستدلال. وهذا يقلل بشكل كبير من أوقات معالجة النماذج التي تحتوي على تريليونات من المعلمات، حيث يكون نقل البيانات أثقل من حسابها. إنها استجابة مباشرة للطلب على توسيع نطاق النماذج دون إشباع ناقل الذاكرة.
H200: حتى لا يتبع LLM الخاص بك نظامًا غذائيًا 🍔
أخيرًا، سيتمكن مهندسو الذكاء الاصطناعي من التوقف عن النظر بحسد إلى المواصفات الفنية لـ H100. تأتي H200 لتتيح للنماذج الأكثر شراهة استهلاك البيانات بسرعة 4.8 تيرابايت/ثانية دون اختناق. لكن، إذا كانت ميزانيتك قد بكت بالفعل مع H100، فاستعد لجولة جديدة من المناديل. لأنه بالطبع، بينما تكون الذاكرة أسرع، من المحتمل أن يتحرك حسابك البنكي بسرعة قرص مرن.