डीपसीक ने एमएचसी प्रस्तुत किया, भाषा मॉडलों को प्रशिक्षित करने का कम घर्षण वाला तरीका

2026 February 08 | स्पेनिश से अनुवादित
Ilustración conceptual que muestra un flujo de datos armonizado entre un modelo de lenguaje grande y un clúster de GPUs, con gráficos matemáticos superpuestos simbolizando la optimización.

Deepseek MHC प्रस्तुत करता है, भाषा मॉडल को कम घर्षण के साथ प्रशिक्षित करने का एक तरीका

चीनी कंपनी Deepseek ने MHC (Mathematical Harmonization of Compute) नामक एक नया दृष्टिकोण प्रकट किया है, जो बड़े भाषा मॉडल (LLM) को अधिक कुशलता से प्रशिक्षित करने के लिए डिज़ाइन किया गया है। यह प्रस्ताव उस घर्षण को हल करने का प्रयास करता है जो तब उत्पन्न होता है जब डेटा और कम्प्यूटिंग पावर प्रशिक्षण प्रक्रिया के दौरान अच्छी तरह से सिंक्रनाइज़ नहीं होते, इंजीनियरिंग और गणित के सिद्धांतों को लागू करके एक अधिक सुगम कार्यप्रवाह बनाते हैं। 🚀

MHC का मूल: मॉडल, डेटा और कम्प्यूट को सामंजस्यपूर्ण बनाना

MHC विधि एक नई मॉडल वास्तुकला नहीं बनाती, बल्कि प्रशिक्षण के तीन मौलिक स्तंभों के बीच बातचीत को अनुकूलित करने पर केंद्रित है। यह गणितीय रूप से संसाधनों को वितरित करने का सबसे अच्छा तरीका विश्लेषण करती है ताकि मॉडल डेटा से सबसे प्रभावी तरीके से सीखे। प्रत्यक्ष उद्देश्य GPU क्लस्टरों में निष्क्रिय समय और बोतलनेक को कम करना है, जिससे पूरी प्रक्रिया अधिक पूर्वानुमानित और कम्प्यूटेशनल स्तर पर कम लागत वाली हो जाती है।

MHC दृष्टिकोण की मुख्य विशेषताएँ:
शायद सबसे बड़ा चुनौती यह न हो कि मशीनें सीखें, बल्कि बिजली के बजटों को और भी तेजी से बढ़ने से सीखने न दें।

भाषा मॉडलों को स्केल करने के निहितार्थ

प्रशिक्षण पाइपलाइन में अक्षमता को कम करके, MHC शोधकर्ताओं के लिए अधिक जटिल वास्तुकलाओं या बड़े डेटासेटों के साथ प्रयोग करने का द्वार खोलता है, हार्डवेयर संसाधनों को आनुपातिक रूप से बढ़ाने की आवश्यकता के बिना। यह एक ऐसे क्षेत्र में एक महत्वपूर्ण प्रगति का प्रतिनिधित्व करता है जहाँ स्केलिंग अधिक शक्तिशाली मॉडलों को प्राप्त करने के लिए मौलिक है।

MHC व्यावहारिक रूप से क्या अनुमति देता है?

AI में दक्षता का भविष्य

Deepseek का तर्क है कि MHC जैसी अनुकूलन प्रणालियाँ कृत्रिम बुद्धिमत्ता में प्रगति जारी रखने के लिए आवश्यक हैं। यह केवल तेज हार्डवेयर बनाने की बात नहीं है, बल्कि मौजूदा का अधिकतम लाभ उठाने की। एक ऐसे वातावरण में जहाँ स्केल क्षमताओं को परिभाषित करता है, संसाधनों को गणितीय रूप से सामंजस्यपूर्ण बनाने वाली विधियाँ अगली पीढ़ी के LLMs विकसित करने के लिए एक प्रमुख प्रतिस्पर्धी लाभ बन जाती हैं। ⚙️