एनवीडिया अपने एक्सेलरेटर्स द्वारा डबल प्रिसिजन गणनाओं को निष्पादित करने के तरीके में बदलाव करता है

Ilustración conceptual de un chip Nvidia con circuitos luminosos, mostrando cómo el software emula funciones de hardware para cálculos de doble precisión.

एनवीडिया अपने एक्सेलरेटर्स द्वारा डबल प्रिसिजन गणनाओं को निष्पादित करने के तरीके को संशोधित करता है

कंपनी एनवीडिया ने अपने सुपरकंप्यूटिंग प्रोसेसर्स में 64-बिट फ्लोटिंग-पॉइंट ऑपरेशनों (FP64) को संभालने के लिए अपना फोकस बदल दिया है। रिपोर्ट्स के अनुसार, कंपनी ने अपनी नई पीढ़ियों में इस उद्देश्य के लिए विशेष हार्डवेयर यूनिट्स के विकास को रोक दिया है। इसके बजाय, यह अपनी CUDA लाइब्रेरीज़ में एल्गोरिदम के माध्यम से इन कार्यों को अनुकरण करने पर निर्भर करती है। यह विधि इसे विशिष्ट परिदृश्यों में सैद्धांतिक प्रदर्शन को बराबर या पार करने की अनुमति देती है बिना विशिष्ट सिलिकॉन क्षेत्र का उपयोग किए। 🔄

प्रदर्शन के आंकड़े नई दिशा को प्रकट करते हैं

एनवीडिया के आधिकारिक आंकड़े इस विकास को स्पष्ट रूप से दिखाते हैं। इसका सबसे नया एक्सेलरेटर, रुबिन, हार्डवेयर द्वारा FP64 वेक्टर ऑपरेशनों में 33 टेराफ्लॉप्स का दावा करता है, जो वर्षों पहले के H100 के समकक्ष है। हालांकि, सॉफ्टवेयर द्वारा अनुकरण को सक्रिय करने पर, एनवीडिया का दावा है कि रुबिन मैट्रिक्स FP64 गणनाओं में 200 टेराफ्लॉप्स तक प्राप्त कर सकता है। यहां तक कि ब्लैकवेल पीढ़ी, इस तकनीक के साथ, 150 टेराफ्लॉप्स तक पहुंच सकती है, जो इसके पूर्ववर्ती हॉपर से अधिक दोगुना है जो नेटिव रूप से निष्पादित करता है। 📊

प्रदर्शन की प्रमुख तुलना:

रुबिन (हार्डवेयर): FP64 वेक्टर में 33 TFLOPS।
रुबिन (सॉफ्टवेयर): FP64 मैट्रिक्स में अनुकरणित 200 TFLOPS तक।
ब्लैकवेल (सॉफ्टवेयर): लगभग 150 TFLOPS, हॉपर को व्यापक रूप से पार करता है।

साझेदारों के साथ कई शोधों और आंतरिक अध्ययनों में हमने पाया कि अनुकरण द्वारा प्राप्त सटीकता कम से कम हार्डवेयर टेंसर कोरों से प्राप्त सटीकता के बराबर है।

मान्य सटीकता परिवर्तन को प्रेरित करती है

एनवीडिया के सुपरकंप्यूटिंग के लिए डायरेक्टिव डैन अर्नस्ट ने इस रणनीतिक बदलाव का कारण समझाया। आंतरिक और पार्टनर्स के साथ मान्यता ने पुष्टि की कि FP64 को अनुकरण करने पर प्राप्त सटीकता कम से कम समर्पित हार्डवेयर कोरों पर निष्पादित करने के बराबर है। यह खोज एनवीडिया को अनुकूलित करने की अनुमति देती है अपने चिप्स के डिजाइन को कृत्रिम बुद्धिमत्ता जैसे डोमेन के लिए, जहां कम सटीकताएं (FP32, FP16) प्राथमिकता रखती हैं, बिना उच्च प्रदर्शन कंप्यूटिंग (HPC) क्षेत्र की मांगों को अनदेखा किए जो अभी भी FP64 की आवश्यकता रखता है। ⚖️

सॉफ्टवेयर अनुकरण के लाभ:

चिप में ट्रांजिस्टर और क्षेत्र को अन्य कार्यों के लिए मुक्त करता है।
विशिष्ट कार्यभारों में उच्चतम प्रदर्शन प्राप्त करने की अनुमति देता है।
वैज्ञानिक और इंजीनियरिंग अनुप्रयोगों के लिए आवश्यक सटीकता बनाए रखता है।

सॉफ्टवेयर द्वारा परिभाषित नई आर्किटेक्चर

ऐसा लगता है कि, कृत्रिम बुद्धिमत्ता में नेतृत्व के लिए प्रतिस्पर्धा में, सिलिकॉन संसाधनों को नेटिव रूप से निष्पादित करने के बजाय अनुकरण करने के लिए आवंटित करना आर्किटेक्चरल दक्षता का नया पैराडाइम बन गया है। यह एक ऐसा बदलाव है जहां सॉफ्टवेयर न केवल हार्डवेयर का समर्थन करता है, बल्कि मौलिक रूप से परिभाषित करता है कि इसे क्या होना चाहिए। दोनों के बीच की सीमा धुंधली हो जाती है ताकि अधिक बहुमुखी समाधान बनाए जा सकें। 🚀