Главное Авторские колонки Вакансии Вопросы
185 0 В избр. Сохранено
Авторизуйтесь
Вход с паролем

NVIDIA представила Eagle 2.5 — визуальный аналог ChatGPT-4o

NVIDIA представила визуальную языковую модель нового поколения — Eagle 2.5, разработанную для глубокого анализа изображений высокого разрешения и длительных видеороликов.
Мнение автора может не совпадать с мнением редакции

Эта модель ориентирована на задачи, требующие контекста и точного понимания происходящего: она не просто распознаёт объекты, а действительно «понимает» происходящее на экране.

Eagle 2.5 позволяет находить конкретные моменты в видео с помощью текстового запроса. Например, достаточно ввести: «Покажи момент, где человек достает ключ из кармана» — и модель найдет нужный фрагмент самостоятельно.

По результатам тестов, Eagle 2.5 показывает уверенную производительность: 74,8 балла в MVBench, 77,6 — в MLVU и 66,4 — в LongVideoBench. В задачах на визуальное понимание модель набрала 94,1 в DocVQA, 87,5 в ChartQA и 80,4 в InfoVQA.

По утверждению NVIDIA, Eagle 2.5 отличается высокой масштабируемостью и уже сегодня может составить конкуренцию таким решениям, как GPT-4o от OpenAI и Qwen2.5-VL-72B от Alibaba. Это еще один шаг NVIDIA в направлении мощных мультимодальных ИИ-платформ.

0
В избр. Сохранено
Авторизуйтесь
Вход с паролем
Комментарии
Выбрать файл
Блог проекта
Расскажите историю о создании или развитии проекта, поиске команды, проблемах и решениях
Написать
Личный блог
Продвигайте свои услуги или личный бренд через интересные кейсы и статьи
Написать

Spark использует cookie-файлы. С их помощью мы улучшаем работу нашего сайта и ваше взаимодействие с ним.