OpenAI ने ऑफिसियल तौर पर दो पावरफुल ओपन-वेट एआई मॉडल GPT OSS-120b और GPT OSS-20b जारी किए हैं, जो ओपन-सोर्स एआई क्षेत्र में एक बड़ी उपलब्धि है। पाँच साल पहले जीपीटी-2 के रिलीज़ होने के बाद से ये ओपनएआई के पहले ओपन-वेट मॉडल हैं।
ये मॉडल अब हगिंग फेस, डेटाब्रिक्स, एज़्योर और एडब्ल्यूएस सहित कई प्लेटफार्मों पर उपलब्ध हैं, जिससे ये व्यापक यूजर्स के लिए आसानी से एक्सेसिबल हो गए हैं। फ्लेक्सिबल Apache 2.0 लाइसेंस के तहत जारी किए गए ये मॉडल फुल कमर्शियल यूज़ के लिए खुले हैं, जिससे बिज़नेस लाइसेंसिंग प्रतिबंधों के बिना इन्हें मालिकाना प्रोडक्ट्स, सर्विस या सिस्टम में इंटीग्रेट कर सकते हैं।
ये मॉडल दो आकारों में उपलब्ध हैं, एक 120 बिलियन पैरामीटर्स के साथ और दूसरा 20 बिलियन पैरामीटर्स के साथ। स्केल के बावजूद बड़ा 120b मॉडल एफ्फिसिएंट डेप्लॉयमेंट के लिए अनुकूलित है, और सिंगल Nvidia GPU पर चलने में कैपेबल है, जो OpenAI के o4-mini मॉडल के बराबर परफॉरमेंस प्रदान करता है।
वहीं 20b वर्शन और भी अधिक एफ्फिसिएंट है, इसके लिए केवल 16GB RAM की आवश्यकता होती है, और यह o3-mini मॉडल के परफॉरमेंस के अनुरूप है। यह सुगमता उन उपयोग मामलों और हार्डवेयर की रेंज को विस्तृत करती है, जिन पर इन मॉडलों को तैनात किया जा सकता है।
GPT OSS मॉडलों की एक प्रमुख विशेषता लोकल डेप्लॉयमेंट और ऑफ़लाइन कार्यक्षमता के लिए उनका समर्थन है। ये मॉडल इंटरनेट कनेक्शन या एक्सटर्नल सर्वर की आवश्यकता के बिना पूरी तरह से लोकल सिस्टम पर चल सकते हैं, जिससे बेहतर प्राइवेसी, सिक्योरिटी और इंडिपेंडेंस मिलती है। यह क्षमता उन बिज़नेस और डेवलपर्स के लिए विशेष रूप से उपयोगी है, जिनकी डेटा प्रशासन आवश्यकताएँ सख्त हैं, या इंटरनेट कनेक्टिविटी सीमित है।
इन मॉडलों की अंडरलाइंग आर्किटेक्चर Mixture-of-Experts फ्रेमवर्क पर आधारित है। यह एडवांस्ड सेटअप मॉडल को अनुमान के दौरान अपने पैरामीटर के केवल एक छोटे से हिस्से को एक्टिवेट करने में इनेबल बनाता है, 120b वर्शन में प्रति टोकन लगभग 5.1 बिलियन पैरामीटर। यह सेलेक्टिव एक्टिवेशन कम्प्यूटेशनल एफिशिएंसी में उल्लेखनीय रूप से सुधार करता है, लेटेंसी को कम करता है, और हार्डवेयर की माँग को कम करता है।
अपने इनिशियल प्रीट्रेनिंग के बाद दोनों मॉडल पर्याप्त कम्प्यूटेशनल रिसोर्स का उपयोग करके डीप रिइंफोर्समेंट लर्निंग से गुजरते हैं। ट्रेनिंग का यह चरण उनकी तर्कशक्ति और कार्य-अनुसरण क्षमताओं को निखारने में मदद करता है, जिससे OpenAI के स्वामित्व वाले O-सीरीज मॉडल के साथ प्रदर्शन की स्थिरता सुनिश्चित होती है। परिणामस्वरूप ये मॉडल न केवल एफ्फिसिएंट हैं, बल्कि एक्यूरेट और माइक्रो आउटपुट देने में भी मज़बूत हैं।
OpenAI ने यह भी घोषणा की कि ये मॉडल उसके Responses API के साथ सहजता से इंटीग्रेट होते हैं, जिससे एजेंट-बेस्ड सिस्टम में इनका सहज समावेशन संभव होता है। ये मॉडल विस्तृत निर्देशों का पालन करने, पायथन कोड चलाने, वेब खोज करने और विभिन्न कार्यों में संरचित तर्क प्रदान करने में कैपेबल हैं। ये मॉडल टास्क कम्प्लेक्सिटी के आधार पर अपने तर्क को एडजस्ट करते हैं, जिससे ये कम लेटेंसी वाले कार्यों और अधिक काम्प्लेक्स, मल्टी-स्टेप प्रोसेस दोनों के लिए उपयुक्त हो जाते हैं।
इसके अलावा GPT OSS मॉडल चेन-ऑफ़ थॉट लॉजिक का समर्थन करते हैं, जिससे लॉजिक, प्लानिंग या स्ट्रक्चर फॉर्मेट की आवश्यकता वाले कार्यों में सुसंगत, स्टेप-by-स्टेप आउटपुट उत्पन्न करना संभव हो जाता है। उनकी अनुकूलन क्षमता उन्हें विभिन्न इंडस्ट्रीज-फ्रॉम एप्लीकेशन के लिए आइडियल बनाती है, एंटरप्राइज ऑटोमेशन और डेटा एनालिसिस से लेकर कस्टमर सर्विस और इंटेलीजेंट एजेंट डेवलपमेंट तक।