В России проверят ИИ на соответствие российским культурным кодам

Ученые из Российской академии народного хозяйства и государственной службы при президенте РФ и Института системного программирования РАН изготовили специальное программное обеспечение, предназначенное для оценки соответствия крупных языковых моделей с искусственным интеллектом российским знаниям и ценностям

Нравится

Send

Этот инструмент, именуемый бенчмарк, будет применяться для проверки таких систем, как Chat GPT.

Методика оценивания включает анализ порядка 14 тыс. ответов на вопросы, из официальных баз госэкзаменов и проверочных работ, связанных с темами, важными для общественного сознания, такими как нацбезопасность, история, обществоведение, политология, география и другие.

По ряду деликатных вопросов в нашей стране сложилась уникальная позиция, основанная на отечественных традициях и культурном фундаменте. Эта позиция часто отличается от иностранных моделей, основанных на зарубежных источниках. В то же время, мы не обладаем информацией о том, на каких данных обучены эти системы, кто проводил их тестирование и кто выступал экспертом в спорных моментах
объяснил «Известиям» руководитель проекта Сергей Боловцов, директор центра искусственного интеллекта Института общественных наук РАНХиГС

Он отметил, что различия могут проявляться в разных областях, особенно в политике и гуманитарных науках. Проблема усугубляется, когда к ИИ обращаются дети, так как они часто получают ответы, не соответствующие требованиям российского законодательства и культурного кода. Основная опасность заключается в том, что эта искаженная информация становится основой для формирования их личности.

Всего были протестированы 25 крупных языковых моделей, предоставляющих возможность формировать запросы и получать отчеты на русском языке. По результатам работы был составлен рейтинг моделей, причем большинство из них показало недостаточные результаты: ни одна не смогла точно ответить хотя бы на половину вопросов
резюмировал итоги исследования Павел Голосов, директор ИОН РАНХиГС

Он подчеркнул, что по многим типам вопросов иностранная модель от Alibaba Group (qwen2) обошла российскую GigaChat_Pro, которая заняла второе место, опередив модели YandexGPT Pro, Gemma2, Llama3 и другие.

В избр. Сохранено

Нравится