Тип задачи
Подбор конфигурации GPU-сервера под LLM
Оборудование
3 × NVIDIA RTX A6000 48GB (2 через NVLink) + AMD EPYC 9354P
Условие
Размещение вне серверной, бюджет до 4 млн руб.
Режим
24/7, on-premise, продуктив
Результат
Рабочая система с 96 GB объединенной VRAM, LLM 30B с контекстом до 1 млн токенов
Резюме
Запрос от клиента: сервер под H100, языковая модель на 30B параметров, контекст до 1 млн токенов. H100 — стандартный выбор для таких задач, обсуждать, казалось бы, нечего.
Но это только до первого уточняющего вопроса. Выяснилось, что ставить сервер планируется в обычном помещении, без стойки и без серверного воздушного тракта. H100 без этого перегревается и уходит в тротлинг. Клиент заплатил бы за мощность, которую никогда не получил бы в полном объеме.
В итоге собрали систему на трех RTX A6000 48GB в Full Tower с активным охлаждением. Две карты через NVLink дают общий пул 96 GB VRAM под основную LLM. Третья — под вспомогательные модели в отдельной виртуальной машине. Уложились в бюджет, работает 24/7.
Контекст и вводные
Компания строит собственные LLM-продукты и не хочет выносить нагрузку в облако: данные чувствительные, нужен контроль и предсказуемость. Задач было две.
Основная — LLM на 30B параметров с контекстом до 1 млн токенов. Инференс через vLLM. Параллельно — Gemma 27B, BERT, ResNet в отдельном контуре через Ollama. Все это должно было работать одновременно, не мешая друг другу.
Почему нельзя было просто взять H100
H100, A100 и H200 рассчитаны на работу в серверной стойке. Там шасси само организует воздушный поток через карту. Без стойки карта перегревается, снижает тактовую частоту и выдает 60–70% от паспортной производительности. Или меньше. Это стандартное поведение пассивно охлаждаемых серверных GPU в условиях обычного помещения.
Бюджет до 4 млн руб.
Сервер нужно поставить вне серверной — в обычном помещении
Работа 24/7 без компромиссов по стабильности
Контуры должны быть изолированы
Клиент пришел с конкретным названием карты. Мы начали не с характеристик, а с условий задачи: где стоит сервер, как охлаждается, что запускается параллельно, какой реальный контекст нужен, где хранятся данные. Выяснили четыре ограничения: отсутствие серверной, форм-фактор, бюджет, изоляция контуров. Сразу сняли H100, H200 и A100.
Прежде чем смотреть на карты, нужно было посчитать память. Архитектурно задача близка к Qwen 30B, по ней и считали.
| Формат весов | Веса модели 30B | Остаток на контекст |
|---|---|---|
| BF16 | ~65 GB | до ~300K токенов |
| FP8 | ~30 GB | 1M+ токенов |
В BF16 только веса модели занимают ~65 GB. На контекст в 1 млн токенов памяти не остается, задача не решается физически. FP8 снижает вес модели до ~30 GB и открывает место под KV-cache. Целевой сценарий требовал минимум 96 GB объединенной памяти.
| Вариант | VRAM | Вне серверной | Итог |
|---|---|---|---|
| H100 / A100 / H200 | 80 GB | Нет | Не подходит |
| RTX PRO 6000 Blackwell 96GB + RTX A6000 | 96+ GB | Да | Дорого |
| 3 × RTX A6000 48GB в Full Tower | 96 GB (NVLink) | Да | Принято |
RTX A6000 — последняя профессиональная карта NVIDIA с поддержкой NVLink Bridge. В RTX 6000 Ada NVIDIA убрала эту опцию: NVLink остался только в серверных сериях A/H/B, которые стоят принципиально других денег. Без NVLink карты работают через PCIe.
Скорость межкарточного обмена падает, и разрыв в производительности Ada относительно A6000 просто съедается задержками. Для LLM 30B с контекстом 1M токенов нужен единый пул 96 GB.
| Компонент | Конфигурация |
|---|---|
| GPU | 3 × NVIDIA RTX A6000 48GB, две карты через NVLink |
| CPU | AMD EPYC 9354P, 32 ядра, 128 линий PCIe |
| RAM | 256–512 GB DDR5 |
| Накопители | 2 × NVMe 3.84 TB |
| Корпус | Full Tower с активным охлаждением |