Ученые из T-Bank AI Research и AIRI создали датасет для обучения искусственного интеллекта на 100 млрд демонстрационных действий

Ученые из лаборатории исследований искусственного интеллекта (ИИ) T-Bank AI Research и Института AIRI представили публичный набор данных для контекстного обучения с подкреплением — XLand-100B.

Нравится

Send

Он поможет ученым быстрее и дешевле проводить исследования без привлечения узкопрофильных специалистов и ставить эксперименты на синтетических данных для анализа новых подходов в обучении ИИ.

Массив данных включает 100 млрд примеров действий ИИ-агента на 30 тыс. задач. Для создания такого датасета потребовалось суммарно около 50 тыс. GPU-часов. Такие вычислительные мощности недоступны большинству академических исследовательских лабораторий.

Контекстное обучение с подкреплением

Контекстное обучение с подкреплением (In-Сontext RL) — одна из наиболее перспективных областей машинного обучения. В этом случае ИИ взаимодействует с окружающей средой, учитывает ее контекст при принятии решений и имеет больше возможностей для адаптации к новым средам, то есть может решать большее количество задач. In-Сontext RL можно использовать для обучения ИИ во всех сферах: от игровой индустрии и здравоохранения до робототехники и промышленности.

Модели в In-Context RL обучаются на массивах данных с демонстрацией правильного решения конкретных задач. Так они узнают принципы поиска решения — и способны переносить их на ранее незнакомые задания.

Существующие наборы данных ограничивали исследования метода In-Context RL из-за своей простоты, структуры или малого количества задач. Кроме того, они часто закрыты для широкого использования, особенно самые подходящие. Все это снижает возможности ученых, работающих над развитием искусственного интеллекта.

Датасет XLand-100B

Для создания XLand-100B используется предыдущая работа ученых из лаборатории T-Bank AI Research и Института AIRI, где исследователи добились высокой эффективности и скорости в работе со средой XLand-Minigrid. Там производится начальное предобучение агента на 65 тыс. задач с контролем со стороны человека, чтобы вывести на приемлемый уровень качества и возможностей. Далее агентов дообучают еще на 30 тыс. задач уже без указания задачи.

Весь процесс обучения записывается. Впоследствии запись превращается в набор данных. Созданный датасет сохраняет все состояния среды, в которых был агент во время обучения, все его действия и награды. История обучения позволяет производить дальнейшее обучение моделей In-Context RL в нужном формате.

Рис. 1 Набор данных, созданный T-Bank Al Research и AIRI, показывает ограничения в работе Algorithm Distillation (AD) — одной из самых популярных моделей в области контекстного обучения с подкреплением (желтый график). Она может решать простые задачи, но при их усложнении результаты выполнения становятся хуже. Качество моделей (фиолетовая линия), которые генерируют данные для датасета, может быть значительно выше при решении сложных задач. Это показывает потенциал развития отрасли с использованием нового инструмента, позволяющего оценить реальные возможности модели

В избр. Сохранено

Нравится