Главное Авторские колонки Вакансии Вопросы
😼
Выбор
редакции
82 0 В избр. Сохранено
Авторизуйтесь
Вход с паролем

Собственный LLM-кластер вместо ChatGPT: когда бизнесу пора переносить GPT и ИИ на on-premise инфраструктуру

Разбираем, когда есть смысл пользоваться ChatGPT, а когда пора переходить на собственное решение. История заказчика из MENA, для которого мы настраивали LLM на собственных серверах, с подходом, бенчмарками и прочим и когда вам пора будет этим заняться. Кстати, вы знали, что в MENA первый рабочий день — воскресенье?
Мнение автора может не совпадать с мнением редакции

Сначала LLM в компании выглядит как лёгкая победа: подключили ChatGPT и тексты пишутся быстрее, ответы формулируются аккуратнее, аналитика собирается бодрее, можно собирать еще агентов на Make или N8N, но до определенного лимита.

Вместе с ростом компании, LLM перестаёт быть «помощником» и становится частью процессов: появляются чувствительные данные, требования к контролю доступа, стабильность «каждый день», интеграции во внутренние сервисы, экономика на больших объёмах.

К нам пришел клиент — крупная телеком компания из MENA уже в этой точке. Их запрос был создать фундамент под GenAI внутри корпоративного периметра: чтобы разные команды могли запускать обучение и инференс, работать с данными и развивать системно, без костылей.

Управляйте AI как профи.

On‑premise — это когда AI‑платформа работает внутри контролируемого контура компании (собственный дата‑центр, colocation или private cloud), а не как внешний API-сервис по подписке.

Это даёт компании:

  1. контроль над данными и тем, куда они попадают;
  2. контроль над тем, как модель встроена в процессы и кто к ней имеет доступ;
  3. возможность построить AI как внутренний сервис (с эксплуатацией и масштабированием), а не как разовую «тулзу».

Почему ждать больше нельзя: моменты, когда On‑prem спасает бизнес.

Есть несколько триггеров, после которых внешние LLM решения начинают ограничивать скорость внедрения, а иногда и саму возможность их использования

Данные становятся реальными. Как только в работу попадают внутренние документы, клиентская информация, операционные показатели — вопрос «куда это уходит» перестаёт быть философским. Думаю не надо объяснять, что происходит, если вы загружаете корпоративные документы в ChatGPT.

Как влияет на бизнес: меньше блокировок от security/юристов → быстрее внедрение AI в процессы.

LLM становится частью системы компании

Когда нужно встроить модель в продукты и команды: роли, доступы, контексты, интеграции, чтобы она работала в интерфейсе сотрудника, брала данные из ваших систем и возвращала результат обратно, при этом не отправляя ничего не внешние сервера.

Как влияет на бизнес: меньше рисков и инцидентов, больше доверия у команд, быстрее масштабирование на новые кейсы, компания контролирует кто пользуется (роли и доступы), какие данные доступны (разрешённые источники), что именно делает модель (правила, логирование, аудит).

Растёт объём, меняется экономика. На старте подписка выглядит идеальной. На масштабе компания хочет контролировать стоимость и планировать бюджет, траты на токены могут достигать десятков тысяч долларов, и своя инфраструктура довольно быстро окупится.

Как влияет на бизнес: предсказуемость затрат при росте использования.

Где On‑prem LLM приносит наибольшую ценность.

On‑prem чаще выбирают компании, у которых AI это 100% будущая часть ежедневной работы и операционки:

  1. регулируемые отрасли и высокий комплаенс;
  2. большие объёмы внутренних данных;
  3. контакт‑центры и массовый сервис;
  4. много внутренних продуктов и команд, которым нужен единый AI‑сервис;
  5. прогноз роста использования и потребность в понятной экономике.

От идеи до железа: взгляд изнутри.

Ключевой момент: мы строили не «кластер ради кластера», а внутреннюю платформу, на которой можно развивать GenAI как продуктовую функцию компании.

Мы шли фазами: Phase 1 — подняли основу, Phase 2 — расширили этот же контур и довели его до реальных сценариев обучения и инференса.

Основные этапы, которые реализовали

  1. фиксирование целей и требований на языке процессов;
  2. проектируем контур: вычисления, данные, безопасность, эксплуатация;
  3. разворачиваем платформу в вашем периметре и подключаем интеграции;
  4. подключаем хранилище и наводим порядок в данных (единые правила, форматы, доступы);
  5. настраиваем аналитику: метрики, логи, дашборды;
  6. прогоняем реальные сценарии: обучение и инференс под нагрузкой;
  7. передаём документацию и выстраиваем эксплуатацию, чтобы система работала.

Технические детали проекта

Ниже — фактура из наших отчётов, чтобы было понятно, какой именно контур мы собрали.

Фазность и мощности

  1. Phase 1: кластер на 2 DGX. Kubernetes разворачивали на 2 DGX + 2 management nodes. В Phase 1 это 16 GPU A100: две compute‑ноды, по 8× A100 каждая
  2. Phase 2: расширение worker‑слоя до 3× DGX A100 (DGX01, DGX02, DGX03)

Данные и хранилище

  1. Общее хранилище на Lustre‑backed DDN, общий путь /scratch (для датасетов, чекпоинтов и артефактов обучения)
  2. Shared storage: 100TB

Наблюдаемость и логи

  1. Prometheus + Grafana (метрики/дашборды, включая GPU/ноды)
  2. Централизованные логи: OpenSearch

Проверка на реальных сценариях

  1. Distributed training: базовый distributed‑сценарий на 2 ноды × 4 GPU, job завершился успешно. Реальные данные: 20 GB, после препроцессинга ~10 GB
  2. Инференс‑бенчмарк: Llama‑3‑3‑70B‑Instruct, прогоны по 100–200 запросов, throughput 300–700 tok/s в рамках наших прогонов/конфигурации, контроль TTFT/TPOT/ITL

Сделайте AI вашим конкурентным преимуществом.

Сейчас у заказчика на руках уже платформа, которую можно развивать как внутренний продукт. Дальше она обычно раскладывается на несколько практичных направлений.

1) Внутренние AI‑сервисы для сотрудников

Корпоративные ассистенты для техподдержки, продаж, операционных команд, юридического блока — с доступом к внутренним базам знаний и регламентам.

2) Контакт‑центр и клиентский сервис

Подсказки операторам, суммаризация диалогов, классификация обращений, ускорение обработки тикетов. (Для телекома это часто первый «массовый» кейс.)

3) Корпоративный поиск и RAG по внутренним знаниям

Единая точка доступа к внутренним документам, продуктовым материалам, политикам и инструкциям: «вопрос → ответ с источниками».

4) Доменная адаптация моделей — как следующий шаг

Когда фундамент готов, следующий этап — донастройка моделей под терминологию, продукты и типовые обращения компании.

5) Масштабирование платформы

Добавление новых моделей, рост числа пользователей и запросов, расширение кластера и storage — без перестройки фундамента.

6) Вывод AI‑функций в прод как регулярный процесс

На базе платформы можно выстроить понятный ритм релизов: тестирование, мониторинг, регресс‑прогоны, контроль качества.

Что получает бизнес на выходе: масштабируемый on-prem LLM-кластер, GenAI и GPT для прозрачного и предсказуемого enterprise AI.

Если убрать термины, смысл такой: у компании появляется AI‑контур, который можно масштабировать и эксплуатировать, а не разовые «запуски модели».

  1. новые AI‑сценарии добавляются итерациями, без постоянной пересборки базиса (time‑to‑value становится предсказуемым);
  2. система становится прозрачной: видно нагрузку, узкие места и причины проблем;
  3. появляется предсказуемость бюджета при росте использования.

0
В избр. Сохранено
Авторизуйтесь
Вход с паролем
Комментарии
Выбрать файл
Блог проекта
Расскажите историю о создании или развитии проекта, поиске команды, проблемах и решениях
Написать
Личный блог
Продвигайте свои услуги или личный бренд через интересные кейсы и статьи
Написать

Spark использует cookie-файлы. С их помощью мы улучшаем работу нашего сайта и ваше взаимодействие с ним.