Тип задачи
Проектирование ML-инфраструктуры под LLM и видеоаналитику
Оборудование
A100 80GB (LLM-контуры) и A100 40GB (CV-контур, 400 камер)
Условие
Инференс Llama 3 70B/Qwen 72B, 10 легких моделей, YOLOv8m на 400 камер
Режим
400 камер, 1080p, 5-10 FPS, суммарно 2000-4000 FPS
Результат
Три решения под разные бюджеты: от чистого инференса за $151K до full fine-tuning за ~$630K
Резюме
Клиент принес готовое ТЗ:
три контура на базе NVIDIA A100 (80GB в LLM-контурах, 40GB в CV),
Kubernetes,
MIG-разделение для легких моделей,
видеоархив на 30 дней.
Условно обозначим эту конфигурацию как «Решение 1».
За предложенным списком скрывались несколько архитектурных решений, которые либо избыточны, либо физически не решают задачу.
Мы не стали считать стоимость сразу.
Сначала задали два вопроса:
что реально планируется запускать и какой бюджет. Оказалось, что основные сценарии — инференс и LoRA/QLoRA дообучение, а полный fine-tuning крупных моделей рассматривается как опциональный.
A100 не подходит ни для одного из контуров:
для CV избыточны и дороги, для LLM — устаревшее поколение без нативной поддержки FP4.
В итоге собрали три новых варианта.
Минимальный закрывает инференс и видеоаналитику за $151K.
Если нужно полноценное обучение моделей, цена вырастает до ~$630K.
Исходное ТЗ содержало четыре блока оборудования.
Проблема в том, что ТЗ описывает железо, а не задачи. Получив ответы на уточняющие вопросы, мы пересмотрели каждый контур.
| Контур | Что было в ТЗ | Что рекомендовали |
|---|---|---|
| LLM (тяжелые) | 8×A100 80GB (Ampere, 2020) MIG + Kubernetes | H200 SXM5 или RTX PRO 6000 Blackwell Blackwell: кратный прирост throughput при NVFP4 |
| LLM (легкие) | 2×A100 80GB в MIG 10 инстансов с лимитами 10–20 GB каждый | vLLM continuous batching 10+ моделей 8B на 1-2 картах без аппаратных лимито |
| CV (400 камер) | 2 сервера × 4×A100 40GB (8 карт суммарно), DeepStream | 2×RTX PRO 6000 Blackwell 4 блока NVDEC 6-го поколения — закрывает 400 камер |
| СХД | 3 массива NL-SAS, 288 TB каждый (суммарно 864 TB raw) 4×25GbE iSCSI/FC | Tiered Storage: NVMe (кэш 24ч) + HDD (архив 30 дней) 80-100 TB полезной емкости |
Список оборудования и реальные требования к задаче — не одно и то же. ТЗ могло быть составлено год назад или скопировано с похожего проекта. Мы отправили клиенту два вопроса: подробное описание конечных задач и ориентир по бюджету. Это заняло лишний день, но изменило всю конфигурацию.
Модели клиента: Llama 3 70B и Qwen 72B. Формат весов: 4-bit квантование GPTQ/AWQ. Контекст: 8K–32K токенов. Основной сценарий: инференс. Fine-tuning входит в планы: LoRA/QLoRA для моделей 5B–70B как основные сценарии, полный fine-tuning крупных моделей — опциональный. CV: YOLOv8m, 400 камер 1080p, 5-10 FPS на камеру, суммарно 2000-4000 FPS. CV-контур приоритетный, real-time. 640 GB VRAM в исходном ТЗ — по нашей оценке, этот объем рассчитан на полный fine-tuning. Для инференса в 4-bit достаточно 96–192 GB.
LLM-инференс в 4-bit: нет нативной поддержки NVFP4.
Клиент указал 4-bit квантование GPTQ/AWQ. Архитектура Ampere (A100) не имеет нативной аппаратной поддержки FP4/NVFP4. Blackwell поддерживает NVFP4 нативно, что при 4-bit инференсе дает кратный прирост throughput. Для запуска моделей класса 70B в FP8 или 4-bit достаточно одной-двух RTX PRO 6000 Blackwell (96 GB каждая). Мы также рекомендовали рассмотреть переход на Qwen 3.5 35B MoE — при сопоставимом качестве она требует в 2-3 раза меньше активных ресурсов, чем исходные 72B-модели.
Легкие модели: MIG избыточен.
В ТЗ заложено MIG-разделение двух A100 на 10 инстансов с аппаратными лимитами 10-20 GB на каждый. vLLM с continuous batching делает это без аппаратных ограничений: 10+ моделей 8B на одной-двух картах RTX PRO 6000 с динамическим распределением памяти. Изоляция обеспечивается через Kubernetes с GPU-фракционированием DRA/MPS.
CV на 400 камер: A100 не предназначена для этого.
A100 создавалась под задачи обучения, а не видеоаналитики. У нее ограниченное число блоков аппаратного декодирования NVDEC. RTX PRO 6000 Blackwell оснащена четырьмя блоками NVDEC 6-го поколения на карту — вдвое быстрее предыдущего поколения. Одна-две карты закрывают поток от 400 камер при YOLOv8m и 5-10 FPS. По ТЗ под CV заложено два сервера с 4×A100 40GB на каждом — это многократная переплата за неподходящее железо.
Главная развилка одна: нужен ли full fine-tuning. Если да, архитектура и бюджет меняются кардинально.
| Параметр | Решение 2: Pro Training | Решение 3: Inference Pro | Решение 4: Balanced Base |
|---|---|---|---|
| Назначение | Обучение (FFT) + инференс + CV | Инференс + CV, без обучения | Инференс средних моделей + CV |
| GPU (LLM) | 8×H200 141GB SXM5 (NVLink) | 4×RTX PRO 6000 96GB | 4×H200 141GB PCIe + NVLink |
| GPU (CV) | 4×RTX PRO 6000 96GB (отд. сервер) | 1 карта в базовой сборке (2 карты рекомендовано, при 5-6 картах) | 6×RTX PRO 6000 96GB (отд. сервер) |
| Суммарный VRAM | 1,12 TB HBM3e + 384 GB GDDR7 | 384 GB GDDR7 | 564 GB HBM3 + 576 GB GDDR7 |
| Fine-tuning (FFT 70B+) | ✓ Да (NVLink 900 GB/s) | ✗ Нет | ✗ Нет (только LoRA) |
| Стоимость (~$, себест.) | ~620–630 тыс. | ~151 тыс. | ~469 тыс. |
Минимальная конфигурация:
один сервер Supermicro SYS-521GE-TNRT с четырьмя RTX PRO 6000 Blackwell. По исходным рекомендациям под CV оптимально выделить 2 карты, под тяжелый LLM-инференс — 1-2 карты, под легкие модели — 1-2 карты.
В базовой сборке на 4 карты нагрузка распределяется по нижней границе этих диапазонов. Для комфортного покрытия всех задач одновременно рекомендуется 5-6 карт, что легко достигается без замены шасси. LoRA/QLoRA доступен, full fine-tuning не предусмотрен.
| Параметр | Данные |
|---|---|
| Шасси | Supermicro SYS-521GE-TNRT |
| CPU | 2×Intel Xeon Platinum 8558 (48C/96T, 330W) |
| RAM | 16×Samsung DDR5 64GB RDIMM — 1 TB |
| GPU | 4×NVIDIA RTX PRO 6000 Blackwell Server Edition, 96GB GDDR7 ECC |
| Суммарный VRAM | 384 GB GDDR7 |
| NIC | 2×Mellanox ConnectX-6 Lx 25GbE Dual-port SFP28 |
| NVMe (OS) | 2×Samsung PM9A3 960GB |
| NVMe (данные) | 2×Samsung PM9A3 1.92TB |
| Стоимость | ~$151 тыс. (себест., с НДС, по курсу ЦБ) |
Как распределены карты в базовой сборке
В минимальной конфигурации на 4 карты: две карты (192 GB) под тяжелый LLM-инференс — Llama 3 70B или аналогичные модели через vLLM, одна карта (96 GB) под 10+ легких моделей 8B, одна карта (96 GB) под CV-аналитику. По исходным рекомендациям CV оптимально требует 2 карты — это достигается при расширении до 5-6 карт, что и является рекомендованной конфигурацией.
Если full fine-tuning — обязательный сценарий, а не опция, архитектура меняется принципиально. FFT модели 70B требует около 1,12 TB VRAM агрегированно, 122B — около 1,95 TB. PCIe-карты с такой задачей не справятся: скорости обмена данными при синхронизации градиентов не хватает. Нужна платформа HGX SXM с NVLink 900 GB/s — без этого процесс обучения может затянуться на месяцы.
| Параметр | Данные |
|---|---|
| Шасси | Supermicro SYS-821GE-TNHR |
| CPU | 2×Intel Xeon Platinum 8558 (48C/96T, 330W) |
| RAM | 16×Samsung DDR5 64GB RDIMM — 1 TB |
| GPU | 8×NVIDIA H200 141GB SXM5 (в составе HGX-платформы) |
| Суммарный VRAM | 1128 GB HBM3e |
| Интерконнект | NVLink 900 GB/s (полный меш 8 GPU) |
| NIC | 2×Mellanox ConnectX-6 Dx 100GbE Dual-port QSFP56 |
| Стоимость | ~$480 тыс. (себест., с НДС, по курсу ЦБ) |
| Параметр | Данные |
|---|---|
| Шасси | Supermicro SYS-521GE-TNRT |
| GPU | 4×NVIDIA RTX PRO 6000 Blackwell Server Edition, 96GB GDDR7 ECC |
| Стоимость | ~$150 тыс. (себест., с НДС, по курсу ЦБ) |
H200 PCIe — карта для инференса. Для full fine-tuning нужна скорость межчиповой связи при синхронизации градиентов. NVLink в HGX SXM дает 900 GB/s против существенно меньшей пропускной способности PCIe. Без этого процесс обучения может затянуться на месяцы.
В ТЗ заложены три стоечных массива по 288 TB NL-SAS каждый — суммарно 864 TB raw. Запись ведется с 200 из 400 камер, срок хранения 30 дней. Исходя из этих параметров требуется полезная емкость порядка 80-100 TB с запасом до 200-300 TB с учетом потенциального расширения аналитики и глубины архива.
По архитектуре хранения: горячий слой на NVMe для последних 24 часов и оперативной аналитики, холодный на Enterprise HDD для 30-дневного архива. Платить за NVMe на весь архивный объем нецелесообразно.
В серии Dell ME (ME5012, ME5024) write cache работает только в режиме read cache — без батарейного резервирования записи. Если кэш на запись принципиален, нужно смотреть на массивы классом выше с поддержкой Flash Write Cache или BBU.
Начинаем с вопросов: что запускаете, какой сценарий приоритетный, какой бюджет. Конфигурацию предлагаем только после того, как разобрались с задачей.