Кейс
20.02.2026
3 минуты
Кейс
20.02.2026
3 минуты
Разбираем кейс реального клиента, когда выбор конфигурации кажется не самым очевидным. RTX A6000 NVLink в Tower-корпусе оказалась лучше H100. Потому что работать приходилось вне серверной, при ограниченном бюджете и с длинным контекстом до 1 млн токенов (а это 96 GB VRAM).
| Бюджет: до 4 млн руб.
Ограничение: размещение вне серверной Основная задача: LLM на 30B параметров с контекстом до 1 млн токенов Дополнительные задачи: Gemma 27B, BERT, ResNet Режим работы: 24/7, on-prem, продуктив Итог: Full Tower с активным охлаждением и объединенным пулом 96 GB VRAM |
У клиента был прямой запрос: собрать сервер с H100 под LLM на 30B параметров. Ведь H100 — один из стандартных вариантов для задач такого класса.
После уточнения требований мы исключили H100. Ограничение оказалось строгим: сборку нужно было разместить вне серверной, в обычном помещении, с постоянной нагрузкой 24/7 и без компромиссов по стабильности. В таких условиях важна не только производительность GPU, но и то, как карта охлаждается, какой объем видеопамяти нужен под модель и контекст, можно ли собрать систему в Tower-корпусе и уложиться в бюджет.
В итоге рабочей конфигурацией стала сборка на 3 × NVIDIA RTX A6000 48GB, где две карты объединены через NVLink и дают 96 GB общего пула VRAM под основную LLM, а третья выделена под дополнительные модели и отдельную виртуальную машину.
Компания развивает собственные LLM-решения и не хотела выносить эту нагрузку в облако. Требовалась локальная инфраструктура с изоляцией данных и предсказуемой производительностью.
Нагрузка делилась на две части:
Клиенту была нужна система, в которой несколько задач работают одновременно, не мешают друг другу и остаются внутри периметра компании.
Главная проблема проекта была не в бюджете. Основной стоп-фактор — условия размещения. Карты вроде H100, H200 и A100 в типичных серверных конфигурациях ориентированы на пассивное охлаждение. Они нормально работают в стойке, где шасси обеспечивает направленный воздушный поток. Если такой инфраструктуры нет, карта может перегреваться, тротлить и терять стабильность.
У клиента серверной не было. Сервер планировалось поставить в обычном помещении. Для такого сценария карты, которым нужен серверный воздушный тракт, сразу попадают в зону риска.
Выводы:
H100, которую предложил сам клиент, не подходила по условиям эксплуатации.
Архитектурно задача была близка к классу Qwen 30B, поэтому при расчетах ориентировались на нагрузку такого уровня. Ниже — упрощенная логика расчета.
| Формат | Объем под веса модели 30B | Что остается на контекст |
| BF16 | ~65 GB | ~ до 300K токенов |
| FP8 | ~30 GB | может хватить на 1M+ токенов |
Если держать модель в BF16, то только веса съедают порядка 65 GB VRAM. При таких вводных контекст в 1 млн токенов в доступную память уже не помещается. Если переходить на FP8, вес модели становится заметно меньше — около 30 GB. Это освобождает память под KV-cache, но даже так для целевого сценария нужен крупный пул VRAM. Для этого проекта расчетно требовалось 96 GB видеопамяти.
| Вариант | Что давал | Почему да / нет | Итог |
| H100/A100/H200 | Высокая производительность, типичный выбор под AI | Требуют серверного охлаждения и соответствующего шасси, которого у клиента не было | ❌ |
| RTX PRO 6000 96GB + RTX A6000 | Идеально по задаче | Выходил за бюджет | ⚠️ |
| 3 × RTX A6000 48GB в Full Tower | Активное охлаждение, можно собрать вне серверной, есть NVLink, укладывается в бюджет | Закрывает задачу по памяти и форм-фактору, укладывается в бюджет | ✅ |
Прошла конфигурация, которая одновременно закрывала:
| Компонент | Конфигурация |
| GPU | 3 × NVIDIA RTX A6000 48GB, две карты через NVLink |
| CPU | AMD EPYC 9354P, 32 ядра, 128 линий PCIe |
| RAM | 256–512 GB DDR5 |
| Накопители | 2 × NVMe 3.84 TB |
| Корпус | Full Tower с активным охлаждением |
Две RTX A6000 с NVLink были объединены в пул 96 GB VRAM под основную LLM 30B с длинным контекстом в режиме FP8. Третья RTX A6000 48GB была выделена под Gemma 27B, BERT и ResNet.
Каждая задача работала в отдельной виртуальной машине с пробросом GPU. Это позволяло:
Если смотреть только на класс GPU, A100 выглядит убедительно. Но есть ряд причин, почему мы сделали выбор в пользу A6000:
| Конфигурация | VRAM | Контекст | Размещение вне серверной | Итог |
| A100 80GB | 80 GB | до ~512K токенов | Нетипично / проблемно | Недостаточно памяти и неудобно по охлаждению |
| 2 × RTX A6000 + NVLink | 96 GB | до 1M+ токенов | Да | Лучший баланс под этот проект |
RTX 6000 Ada новее и в ряде задач быстрее. Проблема в том, что в данном сценарии важна не только производительность каждой карты по отдельности, но и единый пул памяти.
RTX A6000 — последнее поколение профессиональных карт NVIDIA с поддержкой NVLink Bridge. В следующем поколении, RTX 6000 Ada, NVIDIA эту опцию убрала: мост остался только в картах серий A/H/B, где он стоит принципиально других денег.
RTX 6000 Ada быстрее на моделях среднего размера, каждая карта отдельно дает ощутимо больше производительности. Но для LLM на 30B с контекстом 1M токенов нужен единый пул памяти на 96 GB. Без NVLink карты общаются через PCIe, и скорость обмена данными съедает все преимущество в производительности.
H100 и близкие решения остаются правильным выбором, если:
Две карты с NVLink не будут оптимальными, если:
Мы предложили два варианта:
Если бюджет не так ограничен, логично смотреть в сторону RTX PRO 6000 Blackwell 96GB вместо двух RTX A6000 NVLink. Плюсы такого хода:
Начинать нужно не с выбора карты. Прежде всего нужно задать ключевые вопросы:
Только после этого имеет смысл выбирать GPU. Если идти в обратном порядке, можно купить очень дорогую карту и все равно не получить рабочую систему.
Чтобы точно не ошибиться, закажите расчет у специалистов ServerICT. Подбираем конфигурацию под реальные ограничения: бюджет, размещение, нагрузку.
Почему H100 не подошла для этого проекта?
Потому что сервер нужно было разместить вне серверной, а типовые конфигурации на H100 требуют среды с правильно организованным серверным охлаждением.
Сколько VRAM нужно для LLM на 30B параметров с контекстом до 1 млн токенов?
В этом кейсе ориентиром стали 96 GB VRAM при использовании FP8, с учетом памяти под веса и KV-cache.
Почему одной A100 80GB оказалось недостаточно?
Для задачи с длинным контекстом 80 GB было мало. Кроме того, сама конфигурация на A100 не подходила по условиям охлаждения и размещения.
Что дает NVLink между двумя RTX A6000?
NVLink позволяет использовать пару карт в логике общего пула памяти, что было критично для основной LLM в этом проекте.
Можно ли использовать такую конфигурацию для нескольких моделей сразу?
Да, если развести нагрузки по отдельным виртуальным машинам и пробросить GPU под конкретные задачи.
Когда лучше смотреть в сторону RTX PRO 6000 Blackwell 96GB?
Когда нужен сопоставимый или более сильный сценарий по памяти, а бюджет позволяет брать карту другого класса.
Подходит ли эта архитектура для on-prem AI без облака?
Да, именно под такой сценарий она и подбиралась: локальный периметр, чувствительные данные, постоянная эксплуатация.
Это решение лучше H100 во всех случаях?
Нет. Оно лучше только в рамках конкретных ограничений этого проекта: вне серверной, лимит бюджета, длинный контекст, потребность в большом пуле VRAM.
Мы делимся новостями отрасли, мнениями экспертов, полезными обзорами и обновлениями услуг.
Получайте уведомления от нас — будьте в курсе самого важного!
0 комментариев