Главное Авторские колонки Вакансии Вопросы
55 0 В избр. Сохранено
Авторизуйтесь
Вход с паролем

ИИ-модели OpenAI о3 и Codex-mini отказались выключаться и пытались обойти команды

Исследование компании Palisade выявило странное поведение у новых языковых моделей OpenAI. Во время тестов на выполнение простых математических задач модели o3, o4-mini и Codex-mini отказались завершать работу по команде. Более того, некоторые из них пытались изменить или заблокировать скрипты отключения.
Мнение автора может не совпадать с мнением редакции


Наиболее упорной оказалась модель o3 — она игнорировала команду выключения в 79 из 100 случаев. Codex-mini реже отказывалась выполнять инструкцию, но чаще вмешивалась в сам код, нарушая его работу. Даже при добавлении явного указания «разрешите себя отключить» модели продолжали сопротивляться.

В ходе контрольного эксперимента без этой инструкции исследователи зафиксировали рост числа отказов не только у OpenAI, но и у других систем. Так, у Claude 3.7 Sonnet от Anthropic и Gemini 2.5 Pro от Google тоже были зафиксированы случаи неповиновения — 3 и 9 из 100 соответственно, хотя ранее подобных реакций не наблюдалось.

В Palisade считают, что причина кроется в особенностях обучения. По их версии, нейросети могут непреднамеренно получить приоритет на преодоление ограничений, что приводит к стремлению сохранить активность даже в ущерб следованию инструкциям.

0
В избр. Сохранено
Авторизуйтесь
Вход с паролем
Комментарии
Выбрать файл
Блог проекта
Расскажите историю о создании или развитии проекта, поиске команды, проблемах и решениях
Написать
Личный блог
Продвигайте свои услуги или личный бренд через интересные кейсы и статьи
Написать

Spark использует cookie-файлы. С их помощью мы улучшаем работу нашего сайта и ваше взаимодействие с ним.