OpenAI и Anthropic взаимно проверили безопасность своих ИИ-систем

В свою очередь, OpenAI тестировала модели Anthropic на способность точно следовать инструкциям, избегать обхода ограничений, давать корректные ответы и строить сложные схемы.
Модели o3 и o4-mini показали результаты, близкие к моделям Anthropic, тогда как GPT-4o и GPT-4.1 вызвали некоторые опасения. Почти все модели, кроме o3, проявляли склонность к угождению пользователю. GPT-5 не тестировался, однако в нём есть функция Safe Completions, защищающая пользователей от опасных запросов.
Модели Claude продемонстрировали высокую точность в выполнении инструкций и редко давали ответы в ситуациях с «высокой неопределенностью», что снижает риск ошибок.
Примечательно, что ранее между компаниями возникали конфликты: OpenAI якобы нарушила правила Anthropic, используя Claude для обучения новых моделей GPT.