DeepSeek выпустила новую open-source модель DeepSeek-R1
Главной технической инновацией стала архитектура на основе концепции Mixture of Experts (MoE), включающая 671 млрд параметров, из которых активно задействованы примерно 37 млрд. , пишет MLTimes.

В последней версии специалисты внедрили метод холодного SFT (Supervised Fine-Tuning), значительно улучшивший качество текстов, устранивший повторения и повысивший читаемость. Эта модель поддерживает контекстное окно длиной до 128 тысяч токенов.
DeepSeek-R1 теперь доступна на платформе HuggingFace по лицензии MIT, что позволяет её использовать в коммерческих целях без ограничений. Модель превосходит o1 в таких критически важных бенчмарках, как AIME, MATH-500 и SWE-bench Verified, особенно в задачах по математике, физике и программированию.
Ранее компания DeepSeek представила одну из первых «рассуждающих» ИИ-моделей.