Главное Авторские колонки Вакансии Вопросы
Выбор
редакции
555 1 В избр. Сохранено
Авторизуйтесь
Вход с паролем

Продвинутые модели o3 и o4-mini демонстрируют значительно более высокую склонность к генерации недостоверной информации

По результатам внутренних испытаний OpenAI, продвинутые модели o3 и o4-mini демонстрируют значительно более высокую склонность к генерации недостоверной информации, чем предшествующие модели аналогичной структуры, такие как o1, o1-mini и o3-mini, а также традиционные модели, не обладающие способностью к рассуждению.

В технической документации к o3 и o4-mini OpenAI признает необходимость дальнейших исследований для выяснения причин увеличения частоты галлюцинаций при масштабировании моделей, обладающих улучшенными возможностями логического мышления, пишет MLTimes.

Несмотря на то, что o3 и o4-mini показывают улучшенные результаты в некоторых областях, включая программирование и математику, их склонность делать больше утверждений приводит к увеличению как числа точных, так и неточных/галлюцинированных заявлений.

В ходе тестирования PersonQA, внутреннего теста OpenAI для оценки точности знаний моделей о людях, было установлено, что o3 генерирует недостоверную информацию в 33% случаев. Этот показатель примерно вдвое превышает аналогичные показатели предыдущих моделей, способных к рассуждению — o1 и o3-mini, которые показали результаты в 16% и 14,8% соответственно. Модель o4-mini продемонстрировала еще более низкую точность в PersonQA, сгенерировав недостоверные ответы в 48% случаев.

Независимое тестирование, проведенное исследовательской лабораторией Transluce, также подтвердило тенденцию o3 выдумывать действия, которые она якобы совершила в процессе поиска информации.

В одном из примеров Transluce зафиксировала, как o3 утверждала, что запустила код на MacBook Pro 2021 года «вне среды ChatGPT», а затем скопировала полученные данные в свой ответ. Хотя o3 имеет доступ к некоторым инструментам, подобные действия для нее невозможны.

0
В избр. Сохранено
Авторизуйтесь
Вход с паролем
Комментарии
Соколов Станислав
Тревожит, что модели делают это с полной уверенностью. Надеюсь, в будущем Openal сможет это скорректировать. Ведь точность ключ к доверию пользователей.
Ответить
Выбрать файл
Не пропустите публикацию!
Spark_news
Новости от Спарка
Блог проекта
Расскажите историю о создании или развитии проекта, поиске команды, проблемах и решениях
Написать
Личный блог
Продвигайте свои услуги или личный бренд через интересные кейсы и статьи
Написать

Spark использует cookie-файлы. С их помощью мы улучшаем работу нашего сайта и ваше взаимодействие с ним.