Клиент принес ТЗ на A100. Мы изучили вводные и предложили другие варианты

  • Тип задачи

    Проектирование ML-инфраструктуры под LLM и видеоаналитику

  • Оборудование

    A100 80GB (LLM-контуры) и A100 40GB (CV-контур, 400 камер)

  • Условие

    Инференс Llama 3 70B/Qwen 72B, 10 легких моделей, YOLOv8m на 400 камер

  • Режим

    400 камер, 1080p, 5-10 FPS, суммарно 2000-4000 FPS

  • Результат

    Три решения под разные бюджеты: от чистого инференса за $151K до full fine-tuning за ~$630K

Резюме

Клиент принес готовое ТЗ:
три контура на базе NVIDIA A100 (80GB в LLM-контурах, 40GB в CV),
Kubernetes,
MIG-разделение для легких моделей,
видеоархив на 30 дней.

Условно обозначим эту конфигурацию как «Решение 1».
За предложенным списком скрывались несколько архитектурных решений, которые либо избыточны, либо физически не решают задачу.

Мы не стали считать стоимость сразу.

Сначала задали два вопроса:
что реально планируется запускать и какой бюджет. Оказалось, что основные сценарии — инференс и LoRA/QLoRA дообучение, а полный fine-tuning крупных моделей рассматривается как опциональный. 

A100 не подходит ни для одного из контуров:
для CV избыточны и дороги, для LLM — устаревшее поколение без нативной поддержки FP4.

В итоге собрали три новых варианта.
Минимальный закрывает инференс и видеоаналитику за $151K.
Если нужно полноценное обучение моделей, цена вырастает до ~$630K.

Что было в ТЗ

Исходное ТЗ содержало четыре блока оборудования.

  • LLM-контур: один сервер, 8×A100 80GB, 640 GB суммарного VRAM, NVLink, MIG, Kubernetes.
  • LLM Light-контур: один сервер, 2×A100 80GB в MIG-режиме, разделение на 10 инстансов.
  • CV-контур: два сервера, 4×A100 40GB на каждом, DeepStream, обработка 400 камер.
  • СХД: три стоечных массива по 288 TB NL-SAS каждый (24×12TB NL-SAS per СХД, RAID-6), суммарно 864 TB raw, видеоархив на 30 дней.

Проблема в том, что ТЗ описывает железо, а не задачи. Получив ответы на уточняющие вопросы, мы пересмотрели каждый контур.

Контур Что было в ТЗ Что рекомендовали
LLM (тяжелые) 8×A100 80GB (Ampere, 2020) MIG + Kubernetes H200 SXM5 или RTX PRO 6000 Blackwell Blackwell: кратный прирост throughput при NVFP4
LLM (легкие) 2×A100 80GB в MIG 10 инстансов с лимитами 10–20 GB каждый vLLM continuous batching 10+ моделей 8B на 1-2 картах без аппаратных лимито
CV (400 камер) 2 сервера × 4×A100 40GB (8 карт суммарно), DeepStream 2×RTX PRO 6000 Blackwell 4 блока NVDEC 6-го поколения — закрывает 400 камер
СХД 3 массива NL-SAS, 288 TB каждый (суммарно 864 TB raw) 4×25GbE iSCSI/FC Tiered Storage: NVMe (кэш 24ч) + HDD (архив 30 дней) 80-100 TB полезной емкости

Почему начали с вопросов, а не с расчета стоимости

Список оборудования и реальные требования к задаче — не одно и то же. ТЗ могло быть составлено год назад или скопировано с похожего проекта. Мы отправили клиенту два вопроса: подробное описание конечных задач и ориентир по бюджету. Это заняло лишний день, но изменило всю конфигурацию.

Что выяснилось после уточнений

Модели клиента: Llama 3 70B и Qwen 72B. Формат весов: 4-bit квантование GPTQ/AWQ. Контекст: 8K–32K токенов. Основной сценарий: инференс. Fine-tuning входит в планы: LoRA/QLoRA для моделей 5B–70B как основные сценарии, полный fine-tuning крупных моделей — опциональный. CV: YOLOv8m, 400 камер 1080p, 5-10 FPS на камеру, суммарно 2000-4000 FPS. CV-контур приоритетный, real-time. 640 GB VRAM в исходном ТЗ — по нашей оценке, этот объем рассчитан на полный fine-tuning. Для инференса в 4-bit достаточно 96–192 GB. 

Почему A100 не подходит ни для одного контура

LLM-инференс в 4-bit: нет нативной поддержки NVFP4.
Клиент указал 4-bit квантование GPTQ/AWQ. Архитектура Ampere (A100) не имеет нативной аппаратной поддержки FP4/NVFP4. Blackwell поддерживает NVFP4 нативно, что при 4-bit инференсе дает кратный прирост throughput. Для запуска моделей класса 70B в FP8 или 4-bit достаточно одной-двух RTX PRO 6000 Blackwell (96 GB каждая). Мы также рекомендовали рассмотреть переход на Qwen 3.5 35B MoE — при сопоставимом качестве она требует в 2-3 раза меньше активных ресурсов, чем исходные 72B-модели.

Легкие модели: MIG избыточен.
В ТЗ заложено MIG-разделение двух A100 на 10 инстансов с аппаратными лимитами 10-20 GB на каждый. vLLM с continuous batching делает это без аппаратных ограничений: 10+ моделей 8B на одной-двух картах RTX PRO 6000 с динамическим распределением памяти. Изоляция обеспечивается через Kubernetes с GPU-фракционированием DRA/MPS.

CV на 400 камер: A100 не предназначена для этого.
A100 создавалась под задачи обучения, а не видеоаналитики. У нее ограниченное число блоков аппаратного декодирования NVDEC. RTX PRO 6000 Blackwell оснащена четырьмя блоками NVDEC 6-го поколения на карту — вдвое быстрее предыдущего поколения. Одна-две карты закрывают поток от 400 камер при YOLOv8m и 5-10 FPS. По ТЗ под CV заложено два сервера с 4×A100 40GB на каждом — это многократная переплата за неподходящее железо.

Три конфигурации

Главная развилка одна: нужен ли full fine-tuning. Если да, архитектура и бюджет меняются кардинально.

Параметр Решение 2: Pro Training Решение 3: Inference Pro Решение 4: Balanced Base
Назначение Обучение (FFT) + инференс + CV Инференс + CV, без обучения Инференс средних моделей + CV
GPU (LLM) 8×H200 141GB SXM5 (NVLink) 4×RTX PRO 6000 96GB 4×H200 141GB PCIe + NVLink
GPU (CV) 4×RTX PRO 6000 96GB (отд. сервер) 1 карта в базовой сборке (2 карты рекомендовано, при 5-6 картах) 6×RTX PRO 6000 96GB (отд. сервер)
Суммарный VRAM 1,12 TB HBM3e + 384 GB GDDR7 384 GB GDDR7 564 GB HBM3 + 576 GB GDDR7
Fine-tuning (FFT 70B+) ✓ Да (NVLink 900 GB/s) ✗ Нет ✗ Нет (только LoRA)
Стоимость (~$, себест.) ~620–630 тыс. ~151 тыс. ~469 тыс.

Решение 3: Inference Pro

Минимальная конфигурация:
один сервер Supermicro SYS-521GE-TNRT с четырьмя RTX PRO 6000 Blackwell. По исходным рекомендациям под CV оптимально выделить 2 карты, под тяжелый LLM-инференс — 1-2 карты, под легкие модели — 1-2 карты.
В базовой сборке на 4 карты нагрузка распределяется по нижней границе этих диапазонов. Для комфортного покрытия всех задач одновременно рекомендуется 5-6 карт, что легко достигается без замены шасси. LoRA/QLoRA доступен, full fine-tuning не предусмотрен.

Параметр Данные
Шасси Supermicro SYS-521GE-TNRT
CPU 2×Intel Xeon Platinum 8558 (48C/96T, 330W)
RAM 16×Samsung DDR5 64GB RDIMM — 1 TB
GPU 4×NVIDIA RTX PRO 6000 Blackwell Server Edition, 96GB GDDR7 ECC
Суммарный VRAM 384 GB GDDR7
NIC 2×Mellanox ConnectX-6 Lx 25GbE Dual-port SFP28
NVMe (OS) 2×Samsung PM9A3 960GB
NVMe (данные) 2×Samsung PM9A3 1.92TB
Стоимость ~$151 тыс. (себест., с НДС, по курсу ЦБ)

Как распределены карты в базовой сборке
В минимальной конфигурации на 4 карты: две карты (192 GB) под тяжелый LLM-инференс — Llama 3 70B или аналогичные модели через vLLM, одна карта (96 GB) под 10+ легких моделей 8B, одна карта (96 GB) под CV-аналитику. По исходным рекомендациям CV оптимально требует 2 карты — это достигается при расширении до 5-6 карт, что и является рекомендованной конфигурацией.

Решение 2: Pro Training

Если full fine-tuning — обязательный сценарий, а не опция, архитектура меняется принципиально. FFT модели 70B требует около 1,12 TB VRAM агрегированно, 122B — около 1,95 TB. PCIe-карты с такой задачей не справятся: скорости обмена данными при синхронизации градиентов не хватает. Нужна платформа HGX SXM с NVLink 900 GB/s — без этого процесс обучения может затянуться на месяцы.

LLM-сервер

Параметр Данные
Шасси Supermicro SYS-821GE-TNHR
CPU 2×Intel Xeon Platinum 8558 (48C/96T, 330W)
RAM 16×Samsung DDR5 64GB RDIMM — 1 TB
GPU 8×NVIDIA H200 141GB SXM5 (в составе HGX-платформы)
Суммарный VRAM 1128 GB HBM3e
Интерконнект NVLink 900 GB/s (полный меш 8 GPU)
NIC 2×Mellanox ConnectX-6 Dx 100GbE Dual-port QSFP56
Стоимость ~$480 тыс. (себест., с НДС, по курсу ЦБ)

CV-сервер

Параметр Данные
Шасси Supermicro SYS-521GE-TNRT
GPU 4×NVIDIA RTX PRO 6000 Blackwell Server Edition, 96GB GDDR7 ECC
Стоимость ~$150 тыс. (себест., с НДС, по курсу ЦБ)

Почему H200 SXM, а не H200 PCIe

H200 PCIe — карта для инференса. Для full fine-tuning нужна скорость межчиповой связи при синхронизации градиентов. NVLink в HGX SXM дает 900 GB/s против существенно меньшей пропускной способности PCIe. Без этого процесс обучения может затянуться на месяцы.

СХД: пересчитали потребность

В ТЗ заложены три стоечных массива по 288 TB NL-SAS каждый — суммарно 864 TB raw. Запись ведется с 200 из 400 камер, срок хранения 30 дней. Исходя из этих параметров требуется полезная емкость порядка 80-100 TB с запасом до 200-300 TB с учетом потенциального расширения аналитики и глубины архива.
По архитектуре хранения: горячий слой на NVMe для последних 24 часов и оперативной аналитики, холодный на Enterprise HDD для 30-дневного архива. Платить за NVMe на весь архивный объем нецелесообразно.

Про кэш на запись в ME5012

В серии Dell ME (ME5012, ME5024) write cache работает только в режиме read cache — без батарейного резервирования записи. Если кэш на запись принципиален, нужно смотреть на массивы классом выше с поддержкой Flash Write Cache или BBU.

Похожая ситуация?

Этот кейс отзовется, если:

  • у вас есть ТЗ или список железа и вы хотите понять, насколько оно соответствует реальным задачам
  • вы проектируете инфраструктуру под LLM и видеоаналитику одновременно и хотите разобраться, как разграничить нагрузку
  • выбор между full fine-tuning и инференсом как основным сценарием еще не сделан, и непонятно, как это меняет бюджет

Расскажите о своей задаче

Начинаем с вопросов: что запускаете, какой сценарий приоритетный, какой бюджет. Конфигурацию предлагаем только после того, как разобрались с задачей.

Подберем любое оборудование* под ваш запрос

    * ноутбуки, настольные компьютеры, телефоны, планшеты и т.д.
    Translate »