OpenAI приукрасила успехи модели o3 на сложных математических тестах — независимая проверка выявила заниженную точность

По данным независимой исследовательской организации Epoch AI, при тестировании на наборе задач FrontierMath, модель смогла корректно решить лишь около 10% заданий. Это существенно ниже ранее озвученных OpenAI 25%, которые позиционировались как показатель значительного прогресса в области машинного математического мышления.
Как выяснилось, при достижении заявленного результата в декабре использовалась внутренняя версия модели с доступом к расширенным вычислительным мощностям. Эти условия заметно отличались от среды, в которой работает публично доступная версия o3, выпущенная на прошлой неделе. В OpenAI пояснили, что текущая версия модели была доработана с упором на практическое применение, быстроту отклика и доступность, а не на максимальные баллы в тестах.
Дополнительными факторами расхождения могли стать различия в версиях тестов или настройках окружения при запуске моделей. Тем не менее, ключевой вывод остаётся неизменным: в реальных условиях модель o3 показывает результаты значительно скромнее, чем те, что были представлены в официальной презентации.