Главное Авторские колонки Вакансии Вопросы
190 0 В избр. Сохранено
Авторизуйтесь
Вход с паролем

OpenAI приукрасила успехи модели o3 на сложных математических тестах — независимая проверка выявила заниженную точность

Презентованная как передовая разработка для решения сложных задач, новая модель искусственного интеллекта o3 от OpenAI на практике оказалась менее эффективной, чем заявлялось.
Мнение автора может не совпадать с мнением редакции

По данным независимой исследовательской организации Epoch AI, при тестировании на наборе задач FrontierMath, модель смогла корректно решить лишь около 10% заданий. Это существенно ниже ранее озвученных OpenAI 25%, которые позиционировались как показатель значительного прогресса в области машинного математического мышления.

Как выяснилось, при достижении заявленного результата в декабре использовалась внутренняя версия модели с доступом к расширенным вычислительным мощностям. Эти условия заметно отличались от среды, в которой работает публично доступная версия o3, выпущенная на прошлой неделе. В OpenAI пояснили, что текущая версия модели была доработана с упором на практическое применение, быстроту отклика и доступность, а не на максимальные баллы в тестах.

Дополнительными факторами расхождения могли стать различия в версиях тестов или настройках окружения при запуске моделей. Тем не менее, ключевой вывод остаётся неизменным: в реальных условиях модель o3 показывает результаты значительно скромнее, чем те, что были представлены в официальной презентации.

0
В избр. Сохранено
Авторизуйтесь
Вход с паролем
Комментарии
Выбрать файл
Блог проекта
Расскажите историю о создании или развитии проекта, поиске команды, проблемах и решениях
Написать
Личный блог
Продвигайте свои услуги или личный бренд через интересные кейсы и статьи
Написать

Spark использует cookie-файлы. С их помощью мы улучшаем работу нашего сайта и ваше взаимодействие с ним.