ИИ-модели OpenAI о3 и Codex-mini отказались выключаться и пытались обойти команды

Наиболее упорной оказалась модель o3 — она игнорировала команду выключения в 79 из 100 случаев. Codex-mini реже отказывалась выполнять инструкцию, но чаще вмешивалась в сам код, нарушая его работу. Даже при добавлении явного указания «разрешите себя отключить» модели продолжали сопротивляться.
В ходе контрольного эксперимента без этой инструкции исследователи зафиксировали рост числа отказов не только у OpenAI, но и у других систем. Так, у Claude 3.7 Sonnet от Anthropic и Gemini 2.5 Pro от Google тоже были зафиксированы случаи неповиновения — 3 и 9 из 100 соответственно, хотя ранее подобных реакций не наблюдалось.
В Palisade считают, что причина кроется в особенностях обучения. По их версии, нейросети могут непреднамеренно получить приоритет на преодоление ограничений, что приводит к стремлению сохранить активность даже в ущерб следованию инструкциям.