Каталог

8 (499) 490-55-14

info@serverict.com

Клиент хотел H100. Мы выбрали RTX A6000, и это оказалось правильным решением

Тип задачи

Подбор конфигурации GPU-сервера под LLM
Оборудование

3 × NVIDIA RTX A6000 48GB (2 через NVLink) + AMD EPYC 9354P
Условие

Размещение вне серверной, бюджет до 4 млн руб.
Режим

24/7, on-premise, продуктив
Результат

Рабочая система с 96 GB объединенной VRAM, LLM 30B с контекстом до 1 млн токенов

Резюме

Запрос от клиента: сервер под H100, языковая модель на 30B параметров, контекст до 1 млн токенов. H100 — стандартный выбор для таких задач, обсуждать, казалось бы, нечего.

Но это только до первого уточняющего вопроса. Выяснилось, что ставить сервер планируется в обычном помещении, без стойки и без серверного воздушного тракта. H100 без этого перегревается и уходит в тротлинг. Клиент заплатил бы за мощность, которую никогда не получил бы в полном объеме.

В итоге собрали систему на трех RTX A6000 48GB в Full Tower с активным охлаждением. Две карты через NVLink дают общий пул 96 GB VRAM под основную LLM. Третья — под вспомогательные модели в отдельной виртуальной машине. Уложились в бюджет, работает 24/7.

Контекст и вводные

Компания строит собственные LLM-продукты и не хочет выносить нагрузку в облако: данные чувствительные, нужен контроль и предсказуемость. Задач было две.

Основная — LLM на 30B параметров с контекстом до 1 млн токенов. Инференс через vLLM. Параллельно — Gemma 27B, BERT, ResNet в отдельном контуре через Ollama. Все это должно было работать одновременно, не мешая друг другу.

Почему нельзя было просто взять H100

H100, A100 и H200 рассчитаны на работу в серверной стойке. Там шасси само организует воздушный поток через карту. Без стойки карта перегревается, снижает тактовую частоту и выдает 60–70% от паспортной производительности. Или меньше. Это стандартное поведение пассивно охлаждаемых серверных GPU в условиях обычного помещения.

Ограничения

Бюджет до 4 млн руб.
Сервер нужно поставить вне серверной — в обычном помещении
Работа 24/7 без компромиссов по стабильности
Контуры должны быть изолированы

Ход работ

1. Сбор информации

Клиент пришел с конкретным названием карты. Мы начали не с характеристик, а с условий задачи: где стоит сервер, как охлаждается, что запускается параллельно, какой реальный контекст нужен, где хранятся данные. Выяснили четыре ограничения: отсутствие серверной, форм-фактор, бюджет, изоляция контуров. Сразу сняли H100, H200 и A100.

2. Сколько VRAM нужно на самом деле

Прежде чем смотреть на карты, нужно было посчитать память. Архитектурно задача близка к Qwen 30B, по ней и считали.

Формат весов	Веса модели 30B	Остаток на контекст
BF16	~65 GB	до ~300K токенов
FP8	~30 GB	1M+ токенов

В BF16 только веса модели занимают ~65 GB. На контекст в 1 млн токенов памяти не остается, задача не решается физически. FP8 снижает вес модели до ~30 GB и открывает место под KV-cache. Целевой сценарий требовал минимум 96 GB объединенной памяти.

3. Выбор конфигурации

Вариант	VRAM	Вне серверной	Итог
H100 / A100 / H200	80 GB	Нет	Не подходит
RTX PRO 6000 Blackwell 96GB + RTX A6000	96+ GB	Да	Дорого
3 × RTX A6000 48GB в Full Tower	96 GB (NVLink)	Да	Принято

Почему A6000, а не RTX 6000 Ada

RTX A6000 — последняя профессиональная карта NVIDIA с поддержкой NVLink Bridge. В RTX 6000 Ada NVIDIA убрала эту опцию: NVLink остался только в серверных сериях A/H/B, которые стоят принципиально других денег. Без NVLink карты работают через PCIe.

Скорость межкарточного обмена падает, и разрыв в производительности Ada относительно A6000 просто съедается задержками. Для LLM 30B с контекстом 1M токенов нужен единый пул 96 GB.

Итоговая конфигурация

Железо

Компонент	Конфигурация
GPU	3 × NVIDIA RTX A6000 48GB, две карты через NVLink
CPU	AMD EPYC 9354P, 32 ядра, 128 линий PCIe
RAM	256–512 GB DDR5
Накопители	2 × NVMe 3.84 TB
Корпус	Full Tower с активным охлаждением

Как распределили нагрузку

2 × RTX A6000 через NVLink (96 GB) — основная LLM 30B в режиме FP8, контекст до 1 млн токенов, инференс через vLLM.
1 × RTX A6000 (48 GB) — Gemma 27B, BERT, ResNet в отдельной ВМ с проброшенным GPU.
Каждая задача в своей виртуальной машине, данные не смешиваются, ресурсы не конкурируют, легко контролировать.

Система работает в обычном помещении: без стойки, без специальной инфраструктуры.
96 GB объединенной VRAM закрывают задачу по LLM 30B с контекстом 1M токенов в FP8.
Режим 24/7: стабильно, без тротлинга.
Данные не покидают контур компании.
Все уложилось в бюджет до 4 млн руб.

Похожая ситуация?

Этот кейс интересен, если:

Вы хотите запускать LLM или другие AI-модели локально, данные должны оставаться внутри.
Серверной нет, или сервер нужно поставить туда, где она не предусмотрена.
Вы уже выбрали конкретное железо, но не уверены, что оно сработает в ваших условиях.
Нужно держать несколько моделей одновременно, в изолированных контурах.
Бюджет ограничен и хочется не переплатить за то, что не будет работать.

Подберем любое оборудование* под ваш запрос

Прикрепить ТЗ или реквизиты

Подтверждаю, что ознакомлен(а) с Политикой конфиденциальности

Подтверждаю согласие на обработку персональных данных

Подтверждаю согласие на получение рекламы

* ноутбуки, настольные компьютеры, телефоны, планшеты и т.д.

Последние кейсы

Translate »