Google ने वीडियो, ऑडियो और फ़ोटो की मूल समझ लाना शुरू कर दिया है बार्ड एआई चैटबॉट जेमिनी नामक एक नए मॉडल के साथ। गूगल पिक्सल 8 फोन मालिक इसकी नई कृत्रिम बुद्धिमत्ता क्षमताओं का लाभ उठाने वाले पहले लोगों में से होंगे।
नई तकनीक का पहला अवतार बुधवार को दर्जनों देशों में पहुंचा गूगल बार्ड का जेमिनी अपडेट, लेकिन केवल अंग्रेजी में। यह टेक्स्ट-आधारित चैट क्षमताएं प्रदान कर सकता है Google का कहना है कि जटिल कार्यों में AI क्षमताओं में सुधार होता है जैसे दस्तावेज़ों को सारांशित करना, तर्क करना और प्रोग्रामिंग कोड लिखना। मल्टीमीडिया क्षमताओं के साथ बड़ा बदलाव – उदाहरण के लिए किसी वीडियो में हाथ के इशारों को समझना या किसी बच्चे की डॉट-टू-डॉट ड्राइंग पहेली के परिणाम का पता लगाना – “जल्द ही” आएगा, Google ने कहा।
इसे देखो: जेमिनी की पहली छाप: Google का नवीनतम प्रमुख AI अपग्रेड
03:01
मिथुन एआई के लिए एक नाटकीय प्रस्थान है। टेक्स्ट-आधारित चैट महत्वपूर्ण है, लेकिन मनुष्यों को अधिक समृद्ध जानकारी संसाधित करनी होगी क्योंकि हम अपनी त्रि-आयामी, हमेशा बदलती दुनिया में रहते हैं। और हम केवल लिखित शब्दों से नहीं, बल्कि भाषण और कल्पना जैसी जटिल संचार क्षमताओं से प्रतिक्रिया देते हैं। मिथुन दुनिया की हमारी अपनी पूर्ण समझ के करीब आने का एक प्रयास है।
Google ने कहा, मिथुन कंप्यूटिंग शक्ति के विभिन्न स्तरों के लिए तैयार किए गए तीन संस्करणों में आता है:
- जेमिनी नैनो मोबाइल फोन पर चलती है, जिसमें उपलब्ध मेमोरी के विभिन्न स्तरों के लिए दो किस्में उपलब्ध हैं। यह Google के Pixel 8 फोन पर नई सुविधाओं को सशक्त करेगा, जैसे इसके रिकॉर्डर ऐप में बातचीत को सारांशित करना या Google के Gboard के साथ टाइप किए गए व्हाट्सएप में संदेश के उत्तरों का सुझाव देना।
- तेज़ प्रतिक्रियाओं के लिए तैयार जेमिनी प्रो, Google के डेटा केंद्रों में चलता है और बुधवार से बार्ड का एक नया संस्करण पेश करेगा।
- जेमिनी अल्ट्रा, अभी एक परीक्षण समूह तक सीमित है, 2024 की शुरुआत में एक नए बार्ड एडवांस्ड चैटबॉट में उपलब्ध होगा। Google ने मूल्य निर्धारण विवरण प्रकट करने से इनकार कर दिया, लेकिन इस शीर्ष क्षमता के लिए प्रीमियम का भुगतान करने की उम्मीद है।
नया संस्करण नए जेनरेटिव एआई क्षेत्र में प्रगति की ख़तरनाक गति पर प्रकाश डालता है, जहां चैटबॉट उन संकेतों के लिए अपनी प्रतिक्रियाएं बनाते हैं जिन्हें हम रहस्यमय प्रोग्रामिंग निर्देशों के बजाय सरल भाषा में लिखते हैं। Google के शीर्ष प्रतियोगी, OpenAI ने लॉन्च के साथ बढ़त हासिल कर ली है चैटजीपीटी एक साल पहले, लेकिन Google पहले से ही अपने तीसरे प्रमुख AI मॉडल संशोधन पर है और उस तकनीक को उन उत्पादों के माध्यम से वितरित करने की उम्मीद करता है जिनका हम अरबों लोग उपयोग करते हैं, जैसे खोज, क्रोम, Google डॉक्स और जीमेल।
एली कोलिन्स ने कहा, “लंबे समय से हम एआई मॉडल की एक नई पीढ़ी का निर्माण करना चाहते थे जो लोगों के दुनिया को समझने और उसके साथ बातचीत करने के तरीके से प्रेरित हो – एक एआई जो एक सहायक सहयोगी की तरह अधिक और एक स्मार्ट सॉफ्टवेयर की तरह महसूस हो।” , Google के डीपमाइंड डिवीजन में उत्पाद उपाध्यक्ष। “मिथुन राशि हमें उस दृष्टिकोण के एक कदम और करीब लाती है।”
OpenAI भी आपूर्ति करता है माइक्रोसॉफ्ट की कोपायलट एआई तकनीक के पीछे का दिमागजिसमें नया भी शामिल है GPT-4 टर्बो AI मॉडल जिसे OpenAI ने जारी किया नवंबर में। Google की तरह Microsoft के पास Workplace और Home windows जैसे प्रमुख उत्पाद हैं जिनमें वह AI सुविधाएँ जोड़ रहा है।
एआई स्मार्ट हो गया है, लेकिन यह सही नहीं है
मल्टीमीडिया के आने पर टेक्स्ट की तुलना में एक बड़ा बदलाव होने की संभावना है। लेकिन जो नहीं बदला है वह वास्तविक दुनिया के डेटा की विशाल मात्रा में पैटर्न को पहचानकर प्रशिक्षित एआई मॉडल की मूलभूत समस्याएं हैं। वे तेजी से जटिल संकेतों को तेजी से परिष्कृत प्रतिक्रियाओं में बदल सकते हैं, लेकिन आप अभी भी भरोसा नहीं कर सकते कि उन्होंने ऐसा उत्तर नहीं दिया जो वास्तव में सही होने के बजाय प्रशंसनीय था। जैसा कि जब आप इसका उपयोग करते हैं तो Google का चैटबॉट चेतावनी देता है, “बार्ड लोगों के बारे में गलत जानकारी प्रदर्शित कर सकता है, इसलिए अपनी प्रतिक्रियाओं की दोबारा जांच करें।”
जेमिनी Google के बड़े भाषा मॉडल की अगली पीढ़ी है, PaLM और PaLM 2 की अगली कड़ी है जो अब तक बार्ड की नींव रही है। लेकिन जेमिनी को टेक्स्ट, प्रोग्रामिंग कोड, छवियों, ऑडियो और वीडियो पर एक साथ प्रशिक्षित करके, यह इनपुट के प्रत्येक मोड के लिए अलग लेकिन इंटरलिंक्ड एआई मॉडल की तुलना में मल्टीमीडिया इनपुट के साथ अधिक कुशलता से सामना करने में सक्षम है।
मिथुन की क्षमताओं के उदाहरण, एक के अनुसार गूगल शोध पत्र (पीडीएफ), विविध हैं।
त्रिभुज, वर्ग और पंचकोण से बनी आकृतियों की एक श्रृंखला को देखकर, यह सही अनुमान लगा सकता है कि श्रृंखला में अगली आकृति एक षट्भुज है। चंद्रमा की तस्वीरें और एक गोल्फ बॉल पकड़े हुए हाथ के साथ प्रस्तुत किया गया और लिंक खोजने के लिए कहा गया, यह सही ढंग से इंगित करता है कि अपोलो अंतरिक्ष यात्रियों ने 1971 में चंद्रमा पर दो गोल्फ गेंदों को मारा था। इसने देश-दर-देश अपशिष्ट निपटान को दर्शाने वाले चार बार चार्ट परिवर्तित किए। तकनीकों को एक लेबल तालिका में डाला गया और एक दूरस्थ डेटा बिंदु देखा गया, अर्थात् अमेरिका अन्य क्षेत्रों की तुलना में डंप में बहुत अधिक प्लास्टिक फेंकता है।
कंपनी ने जेमिनी को एक हस्तलिखित भौतिकी समस्या को संसाधित करते हुए भी दिखाया, जिसमें एक साधारण स्केच शामिल था, यह पता लगाना कि छात्र की त्रुटि कहाँ थी, और सुधार की व्याख्या करना। एक अधिक शामिल डेमो वीडियो में जेमिनी को एक नीली बत्तख, हाथ की कठपुतलियाँ, हाथ की सफ़ाई के करतब और अन्य वीडियो को पहचानते हुए दिखाया गया है। हालाँकि, कोई भी डेमो लाइव नहीं था, और यह स्पष्ट नहीं है कि जेमिनी कितनी बार ऐसी चुनौतियों का सामना करते हैं।
जेमिनी अल्ट्रा अगले साल प्रदर्शित होने से पहले आगे के परीक्षण की प्रतीक्षा कर रही है।
जेमिनी अल्ट्रा के लिए “रेड टीमिंग” चल रही है, जिसमें एक उत्पाद निर्माता सुरक्षा कमजोरियों और अन्य समस्याओं का पता लगाने के लिए लोगों को शामिल करता है। मल्टीमीडिया इनपुट डेटा के साथ ऐसे परीक्षण अधिक जटिल होते हैं। उदाहरण के लिए, एक टेक्स्ट संदेश और फोटो दोनों अपने आप में अहानिकर हो सकते हैं, लेकिन जब जोड़े जाते हैं तो नाटकीय रूप से अलग अर्थ बता सकते हैं।
गूगल सीईओ ने कहा, “हम इस काम को साहसपूर्वक और जिम्मेदारी से कर रहे हैं।” सुंदर पिचाई ने एक ब्लॉग पोस्ट में कहा. इसका मतलब है बड़े संभावित लाभ के साथ महत्वाकांक्षी अनुसंधान का संयोजन, लेकिन साथ ही सुरक्षा उपायों को जोड़ना और सरकारों और अन्य लोगों के साथ मिलकर काम करना “जोखिमों को संबोधित करने के लिए एआई अधिक सक्षम हो जाता है।”