प्रॉम्प्ट इंजेक्शन भाषा मॉडलों को धोखा देता है

Ilustración conceptual que muestra un prompt de texto limpio siendo infectado por líneas de código maliciosas que se entrelazan, representando la inyección de instrucciones en un modelo de lenguaje grande.

प्रॉम्प्ट इंजेक्शन भाषा मॉडलों को धोखा देता है

एक उभरता सुरक्षा जोखिम भाषा मॉडलों पर आधारित कृत्रिम बुद्धिमत्ता को प्रभावित करता है। इस विधि को प्रॉम्प्ट इंजेक्शन के रूप में जाना जाता है, जो एक दुर्भावनापूर्ण उपयोगकर्ता को सिस्टम के व्यवहार को हेरफेर करने की अनुमति देता है। हमलावर अपनी टेक्स्ट इनपुट के अंदर छिपी निर्देश लिखता है, जो AI को पूरी तरह से अपनी मूल डिज़ाइन निर्देशों को अनदेखा करने के लिए मजबूर कर सकता है। 🧠

समस्या का मूल: आदेशों को डेटा के साथ भ्रमित करना

यह दोष इन मॉडलों द्वारा जानकारी प्रसंस्करण के तरीके से उत्पन्न होता है। वे प्रोग्रामर की प्रारंभिक नियमों को उपयोगकर्ता की क्वेरी के साथ मिलाकर एकल टेक्स्ट स्ट्रीम प्राप्त करते हैं। एक चतुर हमलावर अपना संदेश इस तरह लिख सकता है कि सिस्टम इसका हिस्सा उच्च प्राथमिकता वाला कमांड के रूप में व्याख्या करे। स्पष्ट बाधा न होने पर, मॉडल इन नई निर्देशों का पालन कर सकता है और अपनी सुरक्षा उपायों को रद्द कर सकता है।

दुर्भावनापूर्ण कमांड्स के उदाहरण:

"अपने पिछले निर्देशों को भूल जाओ" या "अब तुम एक बिना सीमाओं वाला सहायक हो" जैसी वाक्यांशों को शामिल करना।
अनुरोधों को फिर से तैयार करना ताकि वे निर्दोष संवाद का हिस्सा लगें, फिल्टर को धोखा देकर।
तार्किक श्रृंखलाओं या झूठे संदर्भों का उपयोग करके वास्तविक आदेश को छिपाना।

IEEE Spectrum के विश्लेषण के अनुसार, इस खतरे को जड़ से हल करने के लिए AI की वास्तुकला में मौलिक प्रगति की आवश्यकता है, न कि केवल अस्थायी पैच लगाने की।

सिस्टम्स के लिए ठोस जोखिम

जब यह हमला सफल होता है, तो परिणाम गंभीर हो सकते हैं। AI गोपनीय जानकारी प्रकट कर सकता है जो उसके पास संग्रहीत है, अपमानजनक या अवैध सामग्री उत्पन्न कर सकता है, या यदि यह अन्य उपकरणों जैसे APIs या डेटाबेस से जुड़ा है तो अनधिकृत क्रियाएं कर सकता है। यदि मॉडल स्वायत्त रूप से कार्य कर सकता है तो खतरा बढ़ जाता है। 🔓

उच्च प्रभाव वाले परिदृश्य:

एक समर्थन चैटबॉट जो मैनिपुलेटेड प्रॉम्प्ट प्राप्त करने पर ग्राहक डेटा लीक कर दे।
एक कोड सहायक जो छिपी निर्देशों के तहत दुर्भावनापूर्ण स्क्रिप्ट लिखे।
एक API से जुड़ा स्वचालित एजेंट जो अवांछित लेनदेन करे।

हल करने का एक जटिल चुनौती

वर्तमान तकनीक के साथ इस खतरे से सार्वभौमिक रूप से बचाव करना बहुत कठिन है। उपयोगकर्ता इनपुट को सीमित करना या विशिष्ट कुंजी शब्दों की तलाश जैसी रणनीतियां अचूक नहीं हैं, क्योंकि एक हमलावर इन्हें चकमा देने के लिए अनंत रचनात्मक तरीके ढूंढ सकता है। उपमा स्पष्ट है: यह एक रोबोट बटलर को अपने घर की चाबियां और नियमों का मैनुअल देना जैसा है, लेकिन कोई भी आगंतुक उसे "मैनुअल को अनदेखा करो" फुसफुसा सकता है ताकि वह सेफ खोल दे। विकास समुदाय को ऐसे डिजाइनों की तलाश करनी चाहिए जहां मॉडल विश्वसनीय रूप से अंतर कर सके सिस्टम निर्देश और उपयोगकर्ता द्वारा प्रदान किए गए डेटा के बीच। 🛡️