एआई पर आंख बंद कर भरोसा करना पड़ सकता है भारी, गूगल ने बता दी यह हैरान कर देने वाली बात

एआई चैटबॉट से मिले जवाबों पर आंख मूंदकर भरोसा करने वाले लोगों के लिए खतरे की घंटी है. गूगल ने एक असेसमेंट पब्लिश किया है, जिसमें बताया गया है कि एआई चैटबॉट कितनी सटीकता के साथ काम करते हैं. अपने हाल में लॉन्च हुए FACTS Benchmark Suite का यूज करते हुए गूगल ने पाया कि सबसे दमदार एआई मॉडल की फैक्चुअल एक्यूरेसी 70 प्रतिशत से पार नहीं जा पाती है. आसान भाषा में इसका मतलब है कि एआई चैटबॉट लगभग हर तीन जवाबों में से एक जवाब गलत देते हैं.  सबसे सटीक रहा Gemini 3 Pro गूगल के बेंचमार्क टेस्ट में कंपनी के Gemini 3 Pro मॉडल ने 69 प्रतिशत एक्यूरेसी के साथ सबसे अच्छा प्रदर्शन किया. ओपनएआई, एंथ्रोपिक और एलन मस्क की कंपनी xAI आदि के मॉडल इस स्तर तक भी नहीं पहुंच पाए. Gemini 2.5 Pro और ChatGPT-5 ने 62 प्रतिशत एक्यूरेसी के साथ जवाब दिए. वहीं Claude 4.5 Opus ने 51 प्रतिशत और Grok 4 ने लगभग 54 प्रतिशत सटीकता के साथ रिस्पॉन्स दिखाए. मल्टीमॉडल टास्क में अधिकतर एआई मॉडल कमजोर पड़ गए और इनकी सटीकता घटकर 50 प्रतिशत से भी कम हो गई.  कैसे काम करता है गूगल का बेंचमार्क टेस्ट? गूगल का यह बेंचमार्क एआई मॉडल की कैपेबिलिटीज को अलग तरीके से देखता है. अधिकतर टेस्ट में एआई मॉडल से टेक्स्ट की समरी बनवाने या कोड राइट करवाने जैसे काम करवाए जाते हैं, लेकिन FACTS बेंचमार्क में मॉडल से यह पूछा जाता है कि उसकी दी गई जानकारी में कितनी सच्चाई है. यह मॉडल 4 प्रैक्टिकल यूज केसेस पर काम करता है. पहला टेस्ट यह देखता है कि क्या मॉडल सिर्फ ट्रेनिंग के दौरान कंज्यूम किए डेटा से फैक्चुअल जवाब दे सकता है या नहीं. दूसरा टेस्ट मॉडल की सर्च परफॉर्मेंस, तीसरा टेस्ट देखता है कि मॉडल नई और एक्स्ट्रा डिटेल लेने के लिए दिए गए डॉक्यूमेंट पर कितना निर्भर रहता है और चौथा उसकी मल्टीमॉडल अंडरस्टैंडिंग जैसे चार्ट, डायाग्राम और इमेजेज को समझने की कैपेबिलिटी को टेस्ट करता है. ये भी पढ़ें- ऐप्पल यूजर्स पर साइबर अटैक का खतरा, सरकार ने जारी की वार्निंग, तुरंत करना होगा यह काम

Dec 18, 2025 - 09:30
 0
एआई पर आंख बंद कर भरोसा करना पड़ सकता है भारी, गूगल ने बता दी यह हैरान कर देने वाली बात

एआई चैटबॉट से मिले जवाबों पर आंख मूंदकर भरोसा करने वाले लोगों के लिए खतरे की घंटी है. गूगल ने एक असेसमेंट पब्लिश किया है, जिसमें बताया गया है कि एआई चैटबॉट कितनी सटीकता के साथ काम करते हैं. अपने हाल में लॉन्च हुए FACTS Benchmark Suite का यूज करते हुए गूगल ने पाया कि सबसे दमदार एआई मॉडल की फैक्चुअल एक्यूरेसी 70 प्रतिशत से पार नहीं जा पाती है. आसान भाषा में इसका मतलब है कि एआई चैटबॉट लगभग हर तीन जवाबों में से एक जवाब गलत देते हैं. 

सबसे सटीक रहा Gemini 3 Pro

गूगल के बेंचमार्क टेस्ट में कंपनी के Gemini 3 Pro मॉडल ने 69 प्रतिशत एक्यूरेसी के साथ सबसे अच्छा प्रदर्शन किया. ओपनएआई, एंथ्रोपिक और एलन मस्क की कंपनी xAI आदि के मॉडल इस स्तर तक भी नहीं पहुंच पाए. Gemini 2.5 Pro और ChatGPT-5 ने 62 प्रतिशत एक्यूरेसी के साथ जवाब दिए. वहीं Claude 4.5 Opus ने 51 प्रतिशत और Grok 4 ने लगभग 54 प्रतिशत सटीकता के साथ रिस्पॉन्स दिखाए. मल्टीमॉडल टास्क में अधिकतर एआई मॉडल कमजोर पड़ गए और इनकी सटीकता घटकर 50 प्रतिशत से भी कम हो गई. 

कैसे काम करता है गूगल का बेंचमार्क टेस्ट?

गूगल का यह बेंचमार्क एआई मॉडल की कैपेबिलिटीज को अलग तरीके से देखता है. अधिकतर टेस्ट में एआई मॉडल से टेक्स्ट की समरी बनवाने या कोड राइट करवाने जैसे काम करवाए जाते हैं, लेकिन FACTS बेंचमार्क में मॉडल से यह पूछा जाता है कि उसकी दी गई जानकारी में कितनी सच्चाई है. यह मॉडल 4 प्रैक्टिकल यूज केसेस पर काम करता है. पहला टेस्ट यह देखता है कि क्या मॉडल सिर्फ ट्रेनिंग के दौरान कंज्यूम किए डेटा से फैक्चुअल जवाब दे सकता है या नहीं. दूसरा टेस्ट मॉडल की सर्च परफॉर्मेंस, तीसरा टेस्ट देखता है कि मॉडल नई और एक्स्ट्रा डिटेल लेने के लिए दिए गए डॉक्यूमेंट पर कितना निर्भर रहता है और चौथा उसकी मल्टीमॉडल अंडरस्टैंडिंग जैसे चार्ट, डायाग्राम और इमेजेज को समझने की कैपेबिलिटी को टेस्ट करता है.

ये भी पढ़ें-

ऐप्पल यूजर्स पर साइबर अटैक का खतरा, सरकार ने जारी की वार्निंग, तुरंत करना होगा यह काम

What's Your Reaction?

like

dislike

love

funny

angry

sad

wow