NVIDIA представила Eagle 2.5 — визуальный аналог ChatGPT-4o

Эта модель ориентирована на задачи, требующие контекста и точного понимания происходящего: она не просто распознаёт объекты, а действительно «понимает» происходящее на экране.
Eagle 2.5 позволяет находить конкретные моменты в видео с помощью текстового запроса. Например, достаточно ввести: «Покажи момент, где человек достает ключ из кармана» — и модель найдет нужный фрагмент самостоятельно.
По результатам тестов, Eagle 2.5 показывает уверенную производительность: 74,8 балла в MVBench, 77,6 — в MLVU и 66,4 — в LongVideoBench. В задачах на визуальное понимание модель набрала 94,1 в DocVQA, 87,5 в ChartQA и 80,4 в InfoVQA.
По утверждению NVIDIA, Eagle 2.5 отличается высокой масштабируемостью и уже сегодня может составить конкуренцию таким решениям, как GPT-4o от OpenAI и Qwen2.5-VL-72B от Alibaba. Это еще один шаг NVIDIA в направлении мощных мультимодальных ИИ-платформ.