Explained: क्या है OpenAI का GPT-4o मॉडल जिससे दुनिया भर में मची खलबली? कैमरे से समझ जाता है इंसानी हावभाव, AI की दुनिया में आएगी क्रान्ति!
OpenAI ने हाल ही में अपना लेटेस्ट लार्ज लैंग्वेज मॉडल (LLM) GPT-4o लॉन्च किया है। कंपनी का कहना है कि यह अब तक का सबसे फास्ट और पावरफुल AI मॉडल है। ओपनएआई ने दावा किया है कि नए मॉडल के साथ ChatGPT पहले से ज्यादा स्मार्ट हो गया है और इसे इस्तेमाल करना भी काफी आसान है। बता दें कि अभी तक GPT-4 ओपनएआई का सबसे एडवांस्ड LLM था जो सिर्फ पेड यूजर्स के लिए उपलब्ध था। हालांकि, GPT-4o को कोई भी फ्री इस्तेमाल कर सकता है।
क्या है जीपीटी-4ओ? (What is GPT-4o?)
GPT-4o में O का मतलब Omni से है यानी हर तरह की बातचीत को समझने की क्षमता। इस AI मॉडल को एक क्रान्तिकारी AI मॉडल के तौर पर देखा जा रहा है क्योंकि इस खासतौर पर मानव और इंसान के बीच बेहतर बातचीत करने के इरादे से विकसित किया गया है। नए जीपीटी-4o के जरिए यूजर्स टेक्स्ट, ऑडियो और इमेज को एक साथ इनपुट के तौर पर इस्तेमाल कर सकते हैं और एआई मॉडल उन्हें उसी फॉरमैट में जवाब देता है। इस फीचर के चलते ही GPT-4o एक मल्टीमॉडल AI मॉडल है जो पिछली जेनरेशन के मॉडल की तुलना में एक बड़ा अपग्रेड है।
नए मॉडल के बारे में जानकारी देते हुए OpenAI की CTO मीरा मुराती ने कहा कि ऐसा पहली बार है जब OpenAI ने इसे आसानी से इस्तेमाल करने के लिए इतना बड़ा कदम आगे बढ़ाया है।
लाइव डेमो को देखें तो ऐसा लगता है कि चैटजीपीटी को एक डिजिटल पर्सनल असिस्टेंट के तौर पर बदलकर GPT-4o बना दिया गया है। जो कई अलग-अलग किस्म के काम कर सकता है। रियल-टाइम ट्रांसलेशन से लेकर किसी यूजर के चेहरे को पढ़ने तक और रियल-टाइम बोली जाने वाली बातों तक, यह नया मॉडल काफी एडवांस्ड है।
GPT-4o टेक्स्ट और विजन यानी यूजर्स द्वारा अपलोड किए जाने वाले स्क्रीनशॉट, फोटोज, डॉक्युमेंट्स या चार्ट देखकर, उनके बारे में जानकारी दे सकता है। OpenAI ने बताया कि चैटजीपीटी के नए अपडेटेड वर्जन में मेमोरी क्षमता को भी अपडेट किया गया है और यह यूजर्स की पिछली बातचीत को याद रखेगा।
GPT-4o के लिए किस टेक्नोलॉजी का इस्तेमाल हुआ है?
AI चैटबॉट्स की बैकबोन LLMs हैं। इन एआई मॉडल्स में काफी ज्यादा डेटा डाला गया है ताकि वे खुद चीजों को सीखने में सक्षम हो सकें।
पिछली जेनरेशन के चैटजीपीटी को अलग-अलग काम करने के लिए मल्टीपल मॉडल्स की जरूरत होती थी। लेकिन GPT-4o एक सिंगल ट्रेन्ड मॉडल है जो टेक्स्ट, विजन और ऑडियो जैसी अलग-अलग चीजों को एक साथ हैंडल कर सकता है। यह दिखाने के लिए कंपनी की सीटीओ ने पिछले मॉडल पर वॉइस मोड को एक्सप्लेन करके समझाया जो ट्रांसक्रिप्शन, इंटेलिजेंस और टेक्स्ट-टू-स्पीच के लिए तीन अलग-अलग मॉडल्स के कॉम्बिनेशन का इस्तेमाल करता है।
सरल भाषा में समझें तो इसका मतलब है कि GPT-4o एक ऐसे इंटिग्रेशन के साथ आता है जिससे यह ज्यादा बेहतर तरीके से इनपुट को प्रोसेस और समझ पाता है। उदाहरण के लिए जीपीटी-4o एक बार में ही ऑडियो इनपुट की टोन, बैकग्राउंड नॉइज और इमोशनल कॉन्टेक्स्ट को समझ सकता है। जबकि पुराने मॉडल के लिए यह एक बड़ी चुनौती थी।
बात जब फीचर्स और क्षमता की हो तो GPT-4o स्पीड और काम करने की तेजी शानदार है। किसी सवाल के जवाब में यह वैसे ही प्रतिक्रिया देता है जैसे इंसान और यह सिर्फ 232 से 320 मिलियन सेकेंड्स का समय लेता है। पिछले मॉडल्स की तुलना में बहुत बड़ा अपग्रेड है जो किसी रिस्पॉन्स का जवाब देने में कई सेकेंड्स का समय लेता है।
GPT-4o मल्टीलिंगुअल सपोर्ट के साथ आता है और खास बात है कि इंग्लिश के अलावा दूसरी भाषाओं में भी यह फटाफट जवाब देता है यानी ग्लोबल यूजर्स के लिए इसे इस्तेमाल करना ज्यादा आसान है।
GPT-4o में ऑडियो और विज़न को भी समझने की क्षमता है। लाइव इवेंट के दौरान चैटजीपीटी ने रियल-टाइम में सवाल को उस समय हल कर दिया जब यूजर उसे कागज पर लिख रहा था। यह कैमरे के जरिए यूजर की भावनाओं को समझता है और ऑब्जेक्ट की पहचान कर लेता है।
जीपीटी-4o कब होगा उपलब्ध? (When will GPT-4o be available?)
जीपीटी-4o को आम लोगों के लिए अलग-अलग फेज में उपलब्ध कराया जाएगा। ChatGPT पर टेक्स्ट और इमेज को समझने वाला फीचर पहले ही रोल आउट किया जा रहा है। वहीं ऑडियो और वीडियो फंक्शन को धीरे-धीरे डिवेलपर्स और चुनिंदा पार्टनर्स के लिए उपलब्ध कराया जाएगा। कंपनी फुल रिलीज पहले से यह सुनिश्चित करना चाहती है कि हर मॉडेलिटी (वॉइस, टेक्स्ट-टू-स्पीड, विजन) से पहले सभी सुरक्षा मानकों पर खरा उतरे।
GPT-4o कितना सुरक्षित?
कंपनी भले ही दावा कर रही हो कि यह सबसे एडवांस्ड मॉडल है लेकिन GPT-4o की भी अपनी लिमिटेशन हैं। ऑफिशियल ब्लॉग के मुताबिक, OpenAI का कहना है कि जीपीटी-4ओ अभी भी शुरुआती चरण में है और यूनिफाइड मल्टीमॉडल इंटरेक्शन को और एक्स्प्लोर किया जा रहा है। जिसका मतलब है कि इसके कुछ फीचर्स जैसे ऑडियो आउटपुट अभी सिर्फ लिमिटेड फॉर्म में पहले से सेट वॉइस में ही एक्सेस किए जा सकते हैं।
कंपनी ने कहा है कि पूरी तरह से रिलीज करने से पहले चैट जीपीटी-4o को अभी और अपडेट किया जाएगा ताकि यह शानदार तरीके से कठिन मल्टीमॉडल टास्क को भी हैंडल कर सके।
बात करें सेफ्टी की तो ओपनएआई का कहना है कि GPT-4o बिल्ट-इन सेफ्टी मेजर के साथ आता है। कंपनी का दावा है कि नए मॉडल को गंभीर सेफ्टी टेस्ट और एक्सटर्नल रिव्यूज से गुजारा गिया है और इस दौरान साइबरसिक्यॉरिटी, गलत जानकारी व पक्षपात भरे जवाब को ध्यान में रखा गया।