RTX A6000 NVLink для LLM на 30B параметров: разбор кейса и сборка за 4 млн ₽

Каталог

8 (499) 490-55-14

info@serverict.com

20 Фев 2026

3 мин.

🟢 Реальный проект. Клиент под NDA.

Бюджет: до 4 млн ₽
Ограничение: размещение вне серверной
Задача: модель 30B параметров с контекстом до 1 млн токенов
Итог: 96 ГБ объединённой видеопамяти в Full Tower

Клиент пришёл с конкретным запросом: сервер с H100 для LLM на 30B параметров. Логичный выбор: топовая карта под серьёзную задачу.

Но когда разобрались в деталях, оказалось, что H100 здесь не сработает. И дело не в бюджете, а в условиях размещения. Собрали конфигурацию на базе RTX A6000 с NVLink: дешевле, с большим объёмом памяти и без ограничений по охлаждению.

Разбираем, как пришли к этому решению.

Что хотел клиент

Компания разрабатывает свои LLM-решения. Нужна on-prem инфраструктура для обучения и инференса.

Две задачи:

LLM на 30B параметров — языковая модель с 30 миллиардами параметров, один из стандартных размеров для корпоративных решений. Контекст до 1 млн токенов. Сервинг через vLLM (фреймворк для обслуживания запросов к модели в продуктиве).
Вспомогательные модели: Gemma 27B, BERT, ResNet. Сервинг через Ollama (аналог vLLM, но проще в настройке, подходит для нескольких моделей одновременно).

Ограничения: бюджет до 4 млн ₽, сервер вне серверной. Данные чувствительные, руководство требует изоляцию. Режим работы: 24/7, продуктив.

Клиент сам нашёл в каталоге серверы с H200, H100 и A100. Попросил собрать на их базе.

Почему H100 и A100 не подошли

H100, A100, H200 охлаждаются пассивно. Тепло отводят турбины в серверной стойке. Без направленного воздушного потока карта перегреется и снизит производительность.

У клиента серверной нет. Сервер будет стоять отдельно, в обычном помещении.

Что это значит: пассивные серверные GPU не подходят. SXM-модули и OEM-варианты тоже. H100/A100 без специального шасси исключены.

Мы рассматривали OEM H100 на PCIe-плате. Дешевле, но проблема с теплоотводом остаётся. Производитель прямо пишет: возможны проблемы со стабильностью.

Сколько памяти нужно на самом деле

Уточнили детали по модели. Архитектура близка к Qwen 30B. Критичен объём VRAM под KV-cache.

Формат	Веса модели 30B	Остаток на контекст
BF16	~65 GB	до 300K токенов
FP8	~30 GB	до 1M+ токенов

В BF16 контекст на 1 млн токенов не влезет. В FP8 влезет, но нужно 96 GB видеопамяти.

Какие варианты рассматривали

Вариант	Почему да/нет	Итог
H100 / A100	Нужна стойка и турбины. У клиента нет серверной.	❌
RTX PRO 6000 96GB + A6000	Идеально по задаче. Выходит за бюджет.	⚠️
3× RTX A6000 в Tower	Активное охлаждение. Бюджет. Память.	✅

Итоговая сборка

Что	Конкретно
GPU	3 × NVIDIA RTX A6000 48GB, две с NVLink
CPU	AMD EPYC 9354P, 32 ядра, 128 линий PCIe
RAM	256–512 GB DDR5
Диски	2 × NVMe 3.84 TB
Корпус	Full Tower с активным охлаждением

Как распределили задачи: две карты с NVLink (96 GB) берут LLM 30B + контекст 1M токенов в FP8. Одна карта (48 GB) отвечает за Gemma 27B + BERT + ResNet. Каждая задача в отдельной VM с пробросом GPU. Данные не пересекаются.

Почему две A6000 лучше одной A100

A100 отпала ещё на этапе охлаждения. Но сравнение по памяти и архитектуре всё равно показательно: A6000 здесь не просто замена, а лучший выбор. И вот почему.

RTX A6000 — последнее поколение профессиональных карт NVIDIA с поддержкой NVLink Bridge. В следующем поколении, RTX 6000 Ada, NVIDIA эту опцию убрала: мост остался только в картах серий A/H/B, где он стоит принципиально других денег.

RTX 6000 Ada быстрее на моделях среднего размера, каждая карта отдельно даёт ощутимо больше производительности. Но для LLM на 30B с контекстом 1M токенов нужен единый пул памяти на 96 GB. Без NVLink карты общаются через PCIe, и скорость обмена данными становится узким местом, которое съедает всё преимущество в производительности.

Поэтому A6000 здесь не компромисс из-за бюджета, а осознанный выбор под конкретную задачу.

Карта	VRAM	Контекст в FP8	Охлаждение
A100 80GB	80 GB	до 512K	Стойка
2× A6000 + NVLink	96 GB	до 1M+	Tower

Как сэкономить

RAM: 256 GB вместо 512 GB, для большинства сценариев хватит. CPU: EPYC 9124 (16 ядер) вместо 9354P (32 ядра), частота даже выше.

Если бюджет вырастет: заменить 2×A6000 на RTX PRO 6000 Blackwell 96GB. Одна карта вместо двух, аппаратный FP8, быстрее инференс.

Что важно запомнить

Начинайте не с карты, а с условий размещения. Нет серверной — половина GPU отпадает сразу. Квантизация решает: FP8 экономит память и деньги, иногда это важнее скорости. Больше VRAM не значит дороже карта: 2×A6000 дают 96 GB, A100 только 80 GB. Без понимания задачи подбор бессмысленен: сначала модель, контекст, формат, потом железо.

Нужен расчёт под вашу задачу?

Подбираем конфигурацию под реальные ограничения: бюджет, размещение, нагрузку.

→ Написать инженеру

Рассылка SERVERICT о самом важном!

Мы делимся новостями отрасли, мнениями экспертов, полезными обзорами и обновлениями услуг.

Получайте уведомления от нас — будьте в курсе самого важного!

0 комментариев

Translate »