Как выбрать GPU для AI-задач и не переплатить: гид для бизнеса

Компании массово внедряют AI: чат-боты на языковых моделях, генерация контента, аналитика, автоматизация. Но между решением «нам нужен AI» и работающим сервисом стоит неочевидный вопрос — на каком железе всё это запускать.

Нравится

Send

Мнение автора может не совпадать с мнением редакции

Рынок GPU в 2025–2026 году — это десятки моделей, пять поколений архитектур и аббревиатуры, в которых путаются даже инженеры. Ошибка в выборе карты обходится дорого: либо переплата в два-три раза за мощность, которая не нужна, либо карта, которая не справляется — и задача требует дорогой переделки. Эта статья даёт понятную рамку для принятия решения, не требуя разбираться в микроархитектуре.

Почему выбор конкретной карты важнее, чем кажется

То, что GPU быстрее процессора для задач AI — давно не новость. Новость в том, что разница между самими GPU тоже кратная.

Представьте: карта А стоит 200 ₽/час и выполняет задачу за один час. Карта Б стоит 100 ₽/час, но ту же задачу делает четыре часа. Итого карта А обходится в 200 ₽, а «дешёвая» карта Б — в 400 ₽. Экономия на часовом тарифе привела к двукратной переплате за результат.

Это не гипотетический пример. При переходе с A100 на H100 одна и та же задача обучения может выполняться в 2–3 раза быстрее. Часовой тариф H100 выше, но стоимость готового результата — ниже. То же самое при переходе с H100 на H200: вычислитель тот же, но за счёт увеличенной памяти и пропускной способности производительность на инференсе больших моделей вырастает почти в два раза при идентичном энергопотреблении.

Вывод простой: смотреть нужно не на цену аренды в час, а на стоимость единицы результата — токена, изображения, завершённого обучения.

Что определяет скорость GPU для AI-задач

За десятками строк в спецификациях скрываются три параметра, которые реально влияют на бизнес-результат.

Память (VRAM). Это объём данных, который помещается «внутрь» карты одновременно. Языковая модель на 70 миллиардов параметров в формате FP8 весит примерно 70 ГБ. Если у карты 24 ГБ памяти — модель просто не запустится на одном ускорителе. Придётся либо брать несколько карт, либо сжимать модель с потерей качества, либо менять карту на более вместительную. Объём памяти — это первый фильтр: если модель не помещается, остальные характеристики не имеют значения.

Пропускная способность памяти. Как быстро данные из памяти подаются в вычислитель. Для больших языковых моделей это часто главное узкое место: процессор карты способен считать быстрее, чем память успевает поставлять данные. Увеличение пропускной способности на 43 % (как между H100 и H200) даёт почти двукратный прирост на задачах инференса — при том, что сам вычислитель не изменился.

Вычислительная мощность. Количество операций в секунду, измеряется в TFLOPS или PFLOPS. Важна, но для большинства AI-задач в 2025–2026 году не является узким местом: память заканчивается или не успевает подгружать данные раньше, чем вычислитель загружается полностью.

Для бизнес-заказчика из этого следует практический приоритет: сначала убедитесь, что модель помещается в память карты, затем оцените пропускную способность, и только потом смотрите на TFLOPS.

Два мира GPU: серверные карты и карты для рабочих станций

Все GPU NVIDIA для AI-задач делятся на два класса, и разница между ними — не просто в цене, а в принципе работы.

Серверные карты для ЦОД (V100, A100, H100, H200, B200, B300) устанавливаются в специализированные серверы и могут объединяться между собой через высокоскоростное соединение NVLink. Восемь таких карт в одном сервере работают почти как единый ускоритель с общим пулом памяти. Память у них — HBM: это дорогая, но в разы более быстрая технология. Серверные карты сертифицированы для промышленной круглосуточной эксплуатации.

Карты для рабочих станций (RTX 4090, RTX 5090, RTX A6000 Ada, RTX 6000 Blackwell) используют другой тип памяти — GDDR, более медленный, но дешёвый. У них нет NVLink, поэтому несколько таких карт не объединяются в единый пул. Каждая работает изолированно.

Если перевести на язык бизнеса: серверные карты — это «тяжёлая техника» для промышленных масштабов. Рабочие станции — «легковой автомобиль» для задач одного пользователя или небольшой команды. Грузовик стоит дороже, но если вам нужно перевезти 20 тонн — десять легковых не справятся.

Выбор между классами определяется двумя вопросами: какого размера модель вы запускаете и сколько пользователей будут работать с ней одновременно.

Какая карта под какую задачу

Вместо того чтобы разбираться в архитектурах, проще начать с задачи и посмотреть, какие карты ей соответствуют.

«Хотим запустить AI-ассистента или чат-бота на модели 7–13 миллиардов параметров». Это относительно компактные модели, которые помещаются в 24–48 ГБ памяти. Подойдут A100, RTX A6000 Ada или RTX 4090 — все три справляются, разница в тарифе и скорости отклика. RTX 4090 будет самым дешёвым вариантом, A100 — самым стабильным для круглосуточной работы.

«Дообучаем или обучаем собственную модель на 13–70 миллиардов параметров». Здесь уже нужна быстрая HBM-память и возможность объединять карты. H100 — надёжная рабочая лошадка для этого сегмента. H200 — тот же вычислитель, но с памятью на 76 % больше (141 ГБ вместо 80 ГБ), что устраняет необходимость в сложных схемах распределения модели по нескольким картам.

«Нужен промышленный инференс флагманской модели на 70+ миллиардов параметров». Модель в формате FP8 весит около 70 ГБ. В 80 ГБ памяти H100 она едва помещается, не оставляя запаса для обслуживания запросов. H200 (141 ГБ) решает эту проблему. RTX 6000 Blackwell (96 ГБ) — единственная несерверная карта, где модель такого размера помещается на одном ускорителе, и может быть интересным вариантом, если не нужен кластер. Для максимальной производительности — B200 или B300.

«Stable Diffusion, генерация изображений, 3D-рендер, видео». RTX 4090 или RTX 5090 — кратно дешевле серверных карт и более чем достаточны для этих задач. RTX 5090 дополнительно поддерживает формат FP4, который ускоряет инференс квантизированных моделей.

«Строим AI-инфраструктуру с нуля, горизонт планирования — два года и более». Экономически оправдано начинать сразу с поколения Blackwell: B200 или B300 обеспечивают до 11—15-кратного прироста производительности на инференсе языковых моделей по сравнению с предыдущим поколением Hopper.

«Есть работающие пайплайны: компьютерное зрение, OCR, классический ML». V100 — самая доступная по тарифу карта, и для задач, где хватает 125 TFLOPS и 32 ГБ памяти, переплачивать за H100 нет смысла.

Сориентироваться в линейке GPU NVIDIA и выбрать конкретную модель поможет таблица сравнения на нашем сайте.

Покупать или арендовать: математика решения

Когда задача сформулирована и подходящая карта определена, встаёт следующий вопрос: покупать своё железо или арендовать в облаке.

Покупка одного серверного GPU уровня H200 — это несколько миллионов рублей только за карту, без учёта серверной обвязки, электричества и охлаждения. Полноценная установка с несколькими картами, сетевой инфраструктурой и обслуживанием легко преодолевает отметку в десятки миллионов. Добавьте к этому реалии параллельного импорта: сроки поставки в месяцах, сложности с гарантией, отсутствие официального сервиса.

При аренде экономика другая. Вы платите только за часы реальной нагрузки. Обучение модели — это не круглосуточный процесс: запустили на ночь, получили результат, остановили. Инференс может масштабироваться по запросу: пиковая нагрузка днём, минимум ночью. Капитальные затраты превращаются в операционные, и бюджет становится предсказуемым.

Есть и стратегический аргумент. GPU-рынок обновляется каждые 1,5–2 года: каждое следующее поколение даёт кратный прирост. Карты, купленные сегодня, через два года будут уступать новым в разы — а списать их и купить новые быстро не получится. В аренде смена поколения — это переключение тарифа.

Для российских компаний, работающих с персональными данными или государственными информационными системами, дополнительным фактором становятся сертификации. Зарубежные облака не обеспечивают соответствие ФЗ-152 и ФЗ-187. Российские провайдеры — обеспечивают. Например, Cloud4Y предоставляет весь диапазон карт от V100 до B300 и RTX 6000 Blackwell с почасовой тарификацией и размещением в сертифицированных ЦОД в России и Европе.

Три ошибки, которые делают компании при выборе GPU

Выбирают самую дешёвую карту по цене в час. Как показано выше, карта с тарифом вдвое ниже может обойтись вдвое дороже по итоговому счёту, если задача выполняется в четыре раза медленнее. Правильная метрика — стоимость единицы результата: сколько рублей стоит миллион сгенерированных токенов или одна завершённая эпоха обучения. По этой метрике H200 выигрывает у H100 даже при более высоком тарифе: 1.9-кратный прирост производительности снижает себестоимость токена на 30–40 %.

Берут самую мощную карту «с запасом». Если модель помещается в 32 ГБ и не требует межкарточного соединения, платить за B300 с 288 ГБ — это как арендовать фуру для перевозки одной коробки. V100 или RTX 4090 справятся с такой задачей за долю стоимости. «Запас» имеет смысл, только если вы точно знаете, что через полгода модель вырастет и потребует больше памяти.

Покупают железо, не попробовав в аренде. Почасовая аренда — это возможность протестировать карту на реальной нагрузке за несколько тысяч рублей и несколько часов. Вы получаете точные данные: сколько токенов в секунду, сколько стоит одно обучение, помещается ли модель. После этого решение о покупке или продолжении аренды принимается на основе цифр, а не предположений. Компании, которые начинают с покупки, часто обнаруживают несоответствие уже после монтажа — и тогда исправить ошибку стоит в разы дороже.

Заключение

Правильный GPU — не самый новый и не самый дешёвый в час. Это карта, у которой себестоимость единицы результата минимальна для конкретной задачи.

Алгоритм выбора GPU в аренду укладывается в три шага. Первый: определите размер модели и тип нагрузки — от этого зависит минимально необходимый объём памяти. Второй: сопоставьте задачу с таблицей и отберите 2–3 подходящие карты. Третий: протестируйте их в аренде на реальных данных, замерьте стоимость результата и примите решение на основе цифр.

Старые поколения карт не становятся ненужными — они смещаются в задачи, для которых их возможностей достаточно, а тариф в разы ниже. Самые новые карты не всегда оправданы — но когда оправданы, экономят больше, чем стоят. Между этими полюсами — десять моделей GPU и ваша конкретная задача. Начните с задачи.

В избр. Сохранено

Нравится