Исследование: ИИ в Google Поиске может выдавать миллионы ошибок в час

Исследование, проведённое по заказу The New York Times стартапом Oumi, оценивало точность ответов ИИ на основе тестового набора вопросов SimpleQA. Согласно результатам, более новая версия системы (Gemini 3) отвечает правильно примерно в 91% случаев, тогда как предыдущая версия (Gemini 2) показывала точность около 85%.
Однако даже при высокой общей точности оставшиеся ошибки становятся критичными из-за огромного объёма поисковых запросов Google, который измеряется триллионами в год. По расчётам исследователей, даже 9% неверных ответов могут означать десятки миллионов ошибок в час при глобальном масштабе использования.
Отдельное внимание в исследовании уделяется проблеме достоверности источников. В значительной части случаев ссылки, которые система приводит в качестве подтверждения, не полностью соответствуют или не подтверждают сформулированный ответ. Также отмечается, что среди часто используемых источников встречаются менее надёжные платформы, включая социальные сети и пользовательские сайты.
В Google не согласны с выводами исследования. Представители компании заявляют, что методология тестирования не отражает реальные сценарии использования поиска, а используемые бенчмарки могут содержать неточности и ограниченную применимость к реальным запросам пользователей.
Несмотря на споры, исследование вновь поднимает вопрос о надёжности генеративного ИИ в поисковых системах, особенно в условиях, когда такие ответы всё чаще подаются пользователям как готовые и окончательные.