Каталог

8 (499) 490-55-14

info@serverict.com

Кейс

20.02.2026

3 минуты

GPU-сервер для LLM 30B: почему RTX A6000 NVLink подошла лучше H100

Разбираем кейс реального клиента, когда выбор конфигурации кажется не самым очевидным. RTX A6000 NVLink в Tower-корпусе оказалась лучше H100. Потому что работать приходилось вне серверной, при ограниченном бюджете и с длинным контекстом до 1 млн токенов (а это 96 GB VRAM).

Бюджет: до 4 млн руб.

Ограничение: размещение вне серверной

Основная задача: LLM на 30B параметров с контекстом до 1 млн токенов

Дополнительные задачи: Gemma 27B, BERT, ResNet

Режим работы: 24/7, on-prem, продуктив

Итог: Full Tower с активным охлаждением и объединенным пулом 96 GB VRAM

У клиента был прямой запрос: собрать сервер с H100 под LLM на 30B параметров. Ведь H100 — один из стандартных вариантов для задач такого класса.

После уточнения требований мы исключили H100. Ограничение оказалось строгим: сборку нужно было разместить вне серверной, в обычном помещении, с постоянной нагрузкой 24/7 и без компромиссов по стабильности. В таких условиях важна не только производительность GPU, но и то, как карта охлаждается, какой объем видеопамяти нужен под модель и контекст, можно ли собрать систему в Tower-корпусе и уложиться в бюджет.

В итоге рабочей конфигурацией стала сборка на 3 × NVIDIA RTX A6000 48GB, где две карты объединены через NVLink и дают 96 GB общего пула VRAM под основную LLM, а третья выделена под дополнительные модели и отдельную виртуальную машину.

Что требовалось клиенту

Компания развивает собственные LLM-решения и не хотела выносить эту нагрузку в облако. Требовалась локальная инфраструктура с изоляцией данных и предсказуемой производительностью.

Нагрузка делилась на две части:

Основная LLM. Речь шла о модели порядка 30B параметров с контекстом до 1 млн токенов. Обслуживание запросов планировалось через vLLM.
Вспомогательные модели. Параллельно нужно было запускать Gemma 27B, BERT и ResNet. Для этой группы моделей рассматривался отдельный контур, в том числе с использованием Ollama.

Клиенту была нужна система, в которой несколько задач работают одновременно, не мешают друг другу и остаются внутри периметра компании.

Почему H100, H200 и A100 не подошли

Главная проблема проекта была не в бюджете. Основной стоп-фактор — условия размещения. Карты вроде H100, H200 и A100 в типичных серверных конфигурациях ориентированы на пассивное охлаждение. Они нормально работают в стойке, где шасси обеспечивает направленный воздушный поток. Если такой инфраструктуры нет, карта может перегреваться, тротлить и терять стабильность.

У клиента серверной не было. Сервер планировалось поставить в обычном помещении. Для такого сценария карты, которым нужен серверный воздушный тракт, сразу попадают в зону риска.

Выводы:

классические серверные варианты на H100/A100/H200 отпадают автоматически;
SXM-модули тоже не подходят;
OEM-исполнения на PCIe тоже не решают вопрос, если сам корпус и схема отвода тепла не рассчитаны под такую тепловую нагрузку.

H100, которую предложил сам клиент, не подходила по условиям эксплуатации.

Сколько VRAM нужно для LLM 30B с контекстом 1 млн токенов

Архитектурно задача была близка к классу Qwen 30B, поэтому при расчетах ориентировались на нагрузку такого уровня. Ниже — упрощенная логика расчета.

Формат	Объем под веса модели 30B	Что остается на контекст
BF16	~65 GB	~ до 300K токенов
FP8	~30 GB	может хватить на 1M+ токенов

Если держать модель в BF16, то только веса съедают порядка 65 GB VRAM. При таких вводных контекст в 1 млн токенов в доступную память уже не помещается. Если переходить на FP8, вес модели становится заметно меньше — около 30 GB. Это освобождает память под KV-cache, но даже так для целевого сценария нужен крупный пул VRAM. Для этого проекта расчетно требовалось 96 GB видеопамяти.

Какие варианты рассматривались

Вариант	Что давал	Почему да / нет	Итог
H100/A100/H200	Высокая производительность, типичный выбор под AI	Требуют серверного охлаждения и соответствующего шасси, которого у клиента не было	❌
RTX PRO 6000 96GB + RTX A6000	Идеально по задаче	Выходил за бюджет	⚠️
3 × RTX A6000 48GB в Full Tower	Активное охлаждение, можно собрать вне серверной, есть NVLink, укладывается в бюджет	Закрывает задачу по памяти и форм-фактору, укладывается в бюджет	✅

Прошла конфигурация, которая одновременно закрывала:

объем VRAM;
режим работы 24/7;
размещение вне серверной;
изоляцию задач;
бюджет до 4 млн руб.

Итоговая конфигурация

Компонент	Конфигурация
GPU	3 × NVIDIA RTX A6000 48GB, две карты через NVLink
CPU	AMD EPYC 9354P, 32 ядра, 128 линий PCIe
RAM	256–512 GB DDR5
Накопители	2 × NVMe 3.84 TB
Корпус	Full Tower с активным охлаждением

Как распределили нагрузку

Две RTX A6000 с NVLink были объединены в пул 96 GB VRAM под основную LLM 30B с длинным контекстом в режиме FP8. Третья RTX A6000 48GB была выделена под Gemma 27B, BERT и ResNet.

Каждая задача работала в отдельной виртуальной машине с пробросом GPU. Это позволяло:

развести контуры по нагрузке;
не смешивать данные;
не держать все модели в одной среде;
упростить контроль ресурсов и эксплуатацию.

Что лучше для LLM 30B: A100 80GB или 2 × RTX A6000 NVLink

Если смотреть только на класс GPU, A100 выглядит убедительно. Но есть ряд причин, почему мы сделали выбор в пользу A6000:

A100 отпала еще на этапе охлаждения. Для размещения вне серверной это уже было достаточным основанием, чтобы не идти в такую конфигурацию.
80 GB VRAM было недостаточно для целевого сценария. Основной модели требовался контекст до 1 млн токенов. При такой задаче 80 GB оказывались тесными, особенно если считать не только веса, но и память под KV-cache.
Две A6000 через NVLink давали 96 GB общего пула. Для этого проекта это было ключевым условием работоспособности.
Tower-корпус с активным охлаждением решал проблему размещения. То, что не получалось сделать с H100/A100 без полноценной серверной схемы охлаждения, удалось собрать на RTX A6000.
Выбор упирался в архитектуру решения. Если проекту нужен большой объем доступной VRAM, работа вне серверной и изолированные on-prem контуры, пара RTX A6000 с NVLink может оказаться сильнее по полезности, чем одна A100.

Конфигурация	VRAM	Контекст	Размещение вне серверной	Итог
A100 80GB	80 GB	до ~512K токенов	Нетипично / проблемно	Недостаточно памяти и неудобно по охлаждению
2 × RTX A6000 + NVLink	96 GB	до 1M+ токенов	Да	Лучший баланс под этот проект

Почему RTX A6000, а не RTX 6000 Ada Generation

RTX 6000 Ada новее и в ряде задач быстрее. Проблема в том, что в данном сценарии важна не только производительность каждой карты по отдельности, но и единый пул памяти.

RTX A6000 — последнее поколение профессиональных карт NVIDIA с поддержкой NVLink Bridge. В следующем поколении, RTX 6000 Ada, NVIDIA эту опцию убрала: мост остался только в картах серий A/H/B, где он стоит принципиально других денег.

RTX 6000 Ada быстрее на моделях среднего размера, каждая карта отдельно дает ощутимо больше производительности. Но для LLM на 30B с контекстом 1M токенов нужен единый пул памяти на 96 GB. Без NVLink карты общаются через PCIe, и скорость обмена данными съедает все преимущество в производительности.

Когда RTX A6000 лучше H100, а когда нет

H100 и близкие решения остаются правильным выбором, если:

у вас есть серверная стойка и нормальный воздушный тракт;
приоритет — максимальная производительность, а не только память;
бюджет не ограничивает выбор архитектуры;
нужна типовая enterprise-конфигурация без нестандартных компромиссов по форм-фактору;
проект масштабируется под другие классы задач, где H100 раскрывается лучше.

Когда конкретно RTX A6000 не лучший вариант

Две карты с NVLink не будут оптимальными, если:

вам не нужен большой объединенный пул VRAM;
модель меньше, и упор идет на максимальный throughput;
инфраструктура уже построена вокруг стойки и серверных GPU;
приоритет — минимальное число карт и более новое поколение оборудования;
бюджет позволяет взять другой класс решения без компромиссов.

Как добиться дополнительной экономии

Мы предложили два варианта:

По оперативной памяти. Если нагрузка не требует верхней границы, можно начинать с 256 GB RAM, а не с 512 GB.
По CPU. Вместо AMD EPYC 9354P на 32 ядра можно рассмотреть EPYC 9124 на 16 ядер. Частота окажется даже выше.

Что делать, если бюджет позволяет большее

Если бюджет не так ограничен, логично смотреть в сторону RTX PRO 6000 Blackwell 96GB вместо двух RTX A6000 NVLink. Плюсы такого хода:

96 GB на одном GPU;
более современная архитектура;
потенциально более сильный инференс в части сценариев.

Выводы из кейса

Начинать нужно не с выбора карты. Прежде всего нужно задать ключевые вопросы:

Какая модель будет запускаться?
Какой реально нужен контекст?
В каком формате будут храниться веса?
Сколько памяти уйдет на KV-cache?
Где будет стоять сервер?
Есть ли серверная и нужное охлаждение?
Нужны ли отдельные контуры под разные модели?
Какой бюджет допустим?

Только после этого имеет смысл выбирать GPU. Если идти в обратном порядке, можно купить очень дорогую карту и все равно не получить рабочую систему.

Чтобы точно не ошибиться, закажите расчет у специалистов ServerICT. Подбираем конфигурацию под реальные ограничения: бюджет, размещение, нагрузку.

FAQ

Почему H100 не подошла для этого проекта?

Потому что сервер нужно было разместить вне серверной, а типовые конфигурации на H100 требуют среды с правильно организованным серверным охлаждением.

Сколько VRAM нужно для LLM на 30B параметров с контекстом до 1 млн токенов?

В этом кейсе ориентиром стали 96 GB VRAM при использовании FP8, с учетом памяти под веса и KV-cache.

Почему одной A100 80GB оказалось недостаточно?

Для задачи с длинным контекстом 80 GB было мало. Кроме того, сама конфигурация на A100 не подходила по условиям охлаждения и размещения.

Что дает NVLink между двумя RTX A6000?

NVLink позволяет использовать пару карт в логике общего пула памяти, что было критично для основной LLM в этом проекте.

Можно ли использовать такую конфигурацию для нескольких моделей сразу?

Да, если развести нагрузки по отдельным виртуальным машинам и пробросить GPU под конкретные задачи.

Когда лучше смотреть в сторону RTX PRO 6000 Blackwell 96GB?

Когда нужен сопоставимый или более сильный сценарий по памяти, а бюджет позволяет брать карту другого класса.

Подходит ли эта архитектура для on-prem AI без облака?

Да, именно под такой сценарий она и подбиралась: локальный периметр, чувствительные данные, постоянная эксплуатация.

Это решение лучше H100 во всех случаях?

Нет. Оно лучше только в рамках конкретных ограничений этого проекта: вне серверной, лимит бюджета, длинный контекст, потребность в большом пуле VRAM.

Рассылка SERVERICT о самом важном!

Мы делимся новостями отрасли, мнениями экспертов, полезными обзорами и обновлениями услуг.

Получайте уведомления от нас — будьте в курсе самого важного!

0 комментариев

Translate »