редакции Выбор
Продвинутые модели o3 и o4-mini демонстрируют значительно более высокую склонность к генерации недостоверной информации
В технической документации к o3 и o4-mini OpenAI признает необходимость дальнейших исследований для выяснения причин увеличения частоты галлюцинаций при масштабировании моделей, обладающих улучшенными возможностями логического мышления, пишет MLTimes.
Несмотря на то, что o3 и o4-mini показывают улучшенные результаты в некоторых областях, включая программирование и математику, их склонность делать больше утверждений приводит к увеличению как числа точных, так и неточных/галлюцинированных заявлений.
В ходе тестирования PersonQA, внутреннего теста OpenAI для оценки точности знаний моделей о людях, было установлено, что o3 генерирует недостоверную информацию в 33% случаев. Этот показатель примерно вдвое превышает аналогичные показатели предыдущих моделей, способных к рассуждению — o1 и o3-mini, которые показали результаты в 16% и 14,8% соответственно. Модель o4-mini продемонстрировала еще более низкую точность в PersonQA, сгенерировав недостоверные ответы в 48% случаев.
Независимое тестирование, проведенное исследовательской лабораторией Transluce, также подтвердило тенденцию o3 выдумывать действия, которые она якобы совершила в процессе поиска информации.
В одном из примеров Transluce зафиксировала, как o3 утверждала, что запустила код на MacBook Pro 2021 года «вне среды ChatGPT», а затем скопировала полученные данные в свой ответ. Хотя o3 имеет доступ к некоторым инструментам, подобные действия для нее невозможны.