Главное Авторские колонки Вакансии Вопросы
248 1 В избр. Сохранено
Авторизуйтесь
Вход с паролем

DeepSeek представил ИИ для распознавания документов

Компания DeepSeek анонсировала DeepSeek-OCR - инновационную открытую модель, предназначенную для анализа и идентификации документации.

Система, в отличие от традиционных OCR-технологий, не ограничивается простым извлечением текстовой информации, она реконструирует целостную структуру документа, включая заголовки, перечни, таблицы и подписи к изображениям, и предоставляет результат в формате Markdown, оптимизированном для индексации и дальнейшей обработки нейросетями. DeepSeek-OCR, распространяемая под лицензией MIT, доступна для использования через платформу Hugging Face.

Ключевой особенностью разработки является «оптическое контекстное сжатие». Модель фокусируется на извлечении ключевой информации и структуры, избегая избыточного детализирования. Такой подход позволяет уменьшить размер обрабатываемых данных в 10-20 раз, что способствует значительному снижению стоимости обработки, поскольку сокращение количества токенов напрямую влияет на скорость и экономичность последующих языковых моделей.

В DeepSeek-OCR используются так называемые визуальные токены — своего рода «снимок» отдельных частей изображения. Даже при ограниченных вычислительных ресурсах (64–100 токенов) достигается точность распознавания 97–99 %. Для обработки сложных документов предусмотрен режим Gundam, автоматически разделяющий документ на фрагменты для более детального анализа проблемных областей без снижения общей производительности. Система также поддерживает привязку распознанных элементов к их точным координатам на странице, что обеспечивает возможность определения положения таблиц, подписей и схем.

В ходе тестирования на наборах данных Fox и OmniDocBench система продемонстрировала впечатляющую эффективность. На Fox точность распознавания практически не снижается даже при минимальном количестве визуальных токенов, а степень сжатия достигает коэффициента 20. На OmniDocBench DeepSeek-OCR демонстрирует низкий уровень ошибок при использовании значительно меньшего количества токенов по сравнению с ресурсоемкими мультимодальными моделями, такими как Qwen или GOT-OCR 2.0. Другими словами, достигается аналогичное качество, но с существенно меньшими вычислительными затратами.

0
В избр. Сохранено
Авторизуйтесь
Вход с паролем
Комментарии
TOPVPN - магазин подписок
YouTube без рекламы, инста без зависаний !
Антон Доев
Такие модели реально ускоряют обработку документов и сокращают ручные ошибки. Было бы интересно увидеть сравнение точности с альтернативами и пару кейсов внедрения.
Ответить
Выбрать файл
Блог проекта
Расскажите историю о создании или развитии проекта, поиске команды, проблемах и решениях
Написать
Личный блог
Продвигайте свои услуги или личный бренд через интересные кейсы и статьи
Написать

Spark использует cookie-файлы. С их помощью мы улучшаем работу нашего сайта и ваше взаимодействие с ним.