Главное Авторские колонки Вакансии Вопросы
233 0 В избр. Сохранено
Авторизуйтесь
Вход с паролем

DeepSeek выпустила новую open-source модель DeepSeek-R1

Китайская лаборатория искусственного интеллекта DeepSeek выпустила новую open-source модель DeepSeek-R1, которая по своим характеристикам сопоставима с известной моделью o1 от OpenAI, а в некоторых аспектах даже превосходит её.

Главной технической инновацией стала архитектура на основе концепции Mixture of Experts (MoE), включающая 671 млрд параметров, из которых активно задействованы примерно 37 млрд. , пишет MLTimes.


В последней версии специалисты внедрили метод холодного SFT (Supervised Fine-Tuning), значительно улучшивший качество текстов, устранивший повторения и повысивший читаемость. Эта модель поддерживает контекстное окно длиной до 128 тысяч токенов.

DeepSeek-R1 теперь доступна на платформе HuggingFace по лицензии MIT, что позволяет её использовать в коммерческих целях без ограничений. Модель превосходит o1 в таких критически важных бенчмарках, как AIME, MATH-500 и SWE-bench Verified, особенно в задачах по математике, физике и программированию.

Ранее компания DeepSeek представила одну из первых «рассуждающих» ИИ-моделей.

0
В избр. Сохранено
Авторизуйтесь
Вход с паролем
Комментарии
Выбрать файл
Блог проекта
Расскажите историю о создании или развитии проекта, поиске команды, проблемах и решениях
Написать
Личный блог
Продвигайте свои услуги или личный бренд через интересные кейсы и статьи
Написать

Spark использует cookie-файлы. С их помощью мы улучшаем работу нашего сайта и ваше взаимодействие с ним.