يمكن لميزة AI Overview من Google إنتاج عدد كبير من الإجابات غير الصحيحة على الرغم من دقتها العالية بشكل عام. توصل صحفيون من صحيفة نيويورك تايمز إلى هذا الاستنتاج بعد اختبار مشترك مع الشركة الناشئة Oumi.

تُظهر الأداة المدعومة بالذكاء الاصطناعي Gemini دقة تصل إلى 90% تقريبًا. علاوة على ذلك، حتى معدل الخطأ الصغير نسبيًا، نظرًا لحجم حركة البحث، يمكن أن يترجم إلى عشرات الملايين من الإجابات غير الصحيحة يوميًا.
لتقييم جودة “وضع الذكاء الاصطناعي”، تم استخدام معيار SimpleQA من OpenAI، والذي يتضمن أكثر من 4 آلاف سؤال بإجابات يمكن التحقق منها بالإضافة إلى أدوات التحليل الخاصة بـ Oumi. وبحسب الاختبارات، عند استخدام نموذج جيميني 2.5، وصلت الدقة إلى حوالي 85%، بينما بعد التحول إلى نموذج جيميني 3، ارتفع هذا الرقم إلى 91%.
تُظهر الأبحاث حالات تجميع معلومات غير دقيقة من المصادر. في أحد الأمثلة، حدد النظام بشكل غير صحيح تاريخ تحويل منزل بوب مارلي إلى متحف، على الرغم من البيانات الدقيقة في المصادر الأولية، مما يشير إلى مشاكل في التفسير واختيار الحدث.
جوجل يشكك في نتائج البحث. وقال المتحدث باسم الشركة نيد أدريانز إن معيار SimpleQA المستخدم قد يحتوي على أخطاء ولا يعكس مواقف المستخدم الحقيقية. ويقول إن المقياس الأكثر أهمية هو اختبار SimpleQA الذي تم التحقق منه، والذي يحتوي على مجموعة أسئلة أصغر ولكن تم فحصها بعناية. بالإضافة إلى ذلك، تعتقد الشركة أن منهجية البحث لا تأخذ بعين الاعتبار تفاصيل استعلامات البحث الفعلية.
