Клиент хотел H100. Мы выбрали RTX A6000, и это оказалось правильным решением

  • Тип задачи

    Подбор конфигурации GPU-сервера под LLM

  • Оборудование

    3 × NVIDIA RTX A6000 48GB (2 через NVLink) + AMD EPYC 9354P

  • Условие

    Размещение вне серверной, бюджет до 4 млн руб.

  • Режим

    24/7, on-premise, продуктив

  • Результат

    Рабочая система с 96 GB объединенной VRAM, LLM 30B с контекстом до 1 млн токенов

Резюме

Запрос от клиента: сервер под H100, языковая модель на 30B параметров, контекст до 1 млн токенов. H100 — стандартный выбор для таких задач, обсуждать, казалось бы, нечего.

Но это только до первого уточняющего вопроса. Выяснилось, что ставить сервер планируется в обычном помещении, без стойки и без серверного воздушного тракта. H100 без этого перегревается и уходит в тротлинг. Клиент заплатил бы за мощность, которую никогда не получил бы в полном объеме.

В итоге собрали систему на трех RTX A6000 48GB в Full Tower с активным охлаждением. Две карты через NVLink дают общий пул 96 GB VRAM под основную LLM. Третья — под вспомогательные модели в отдельной виртуальной машине. Уложились в бюджет, работает 24/7.

Контекст и вводные

Компания строит собственные LLM-продукты и не хочет выносить нагрузку в облако: данные чувствительные, нужен контроль и предсказуемость. Задач было две.

Основная — LLM на 30B параметров с контекстом до 1 млн токенов. Инференс через vLLM. Параллельно — Gemma 27B, BERT, ResNet в отдельном контуре через Ollama. Все это должно было работать одновременно, не мешая друг другу.

Почему нельзя было просто взять H100

H100, A100 и H200 рассчитаны на работу в серверной стойке. Там шасси само организует воздушный поток через карту. Без стойки карта перегревается, снижает тактовую частоту и выдает 60–70% от паспортной производительности. Или меньше. Это стандартное поведение пассивно охлаждаемых серверных GPU в условиях обычного помещения.

Ограничения

  • Бюджет до 4 млн руб.

  • Сервер нужно поставить вне серверной — в обычном помещении

  • Работа 24/7 без компромиссов по стабильности

  • Контуры должны быть изолированы

Ход работ

1. Сбор информации

Клиент пришел с конкретным названием карты. Мы начали не с характеристик, а с условий задачи: где стоит сервер, как охлаждается, что запускается параллельно, какой реальный контекст нужен, где хранятся данные. Выяснили четыре ограничения: отсутствие серверной, форм-фактор, бюджет, изоляция контуров. Сразу сняли H100, H200 и A100.

2. Сколько VRAM нужно на самом деле

Прежде чем смотреть на карты, нужно было посчитать память. Архитектурно задача близка к Qwen 30B, по ней и считали.

Формат весов Веса модели 30B Остаток на контекст
BF16 ~65 GB до ~300K токенов
FP8 ~30 GB 1M+ токенов

В BF16 только веса модели занимают ~65 GB. На контекст в 1 млн токенов памяти не остается, задача не решается физически. FP8 снижает вес модели до ~30 GB и открывает место под KV-cache. Целевой сценарий требовал минимум 96 GB объединенной памяти.

3. Выбор конфигурации

Вариант VRAM Вне серверной Итог
H100 / A100 / H200 80 GB Нет Не подходит
RTX PRO 6000 Blackwell 96GB + RTX A6000 96+ GB Да Дорого
3 × RTX A6000 48GB в Full Tower 96 GB (NVLink) Да Принято

Почему A6000, а не RTX 6000 Ada

RTX A6000 — последняя профессиональная карта NVIDIA с поддержкой NVLink Bridge. В RTX 6000 Ada NVIDIA убрала эту опцию: NVLink остался только в серверных сериях A/H/B, которые стоят принципиально других денег. Без NVLink карты работают через PCIe.

Скорость межкарточного обмена падает, и разрыв в производительности Ada относительно A6000 просто съедается задержками. Для LLM 30B с контекстом 1M токенов нужен единый пул 96 GB.

Итоговая конфигурация

Железо

Компонент Конфигурация
GPU 3 × NVIDIA RTX A6000 48GB, две карты через NVLink
CPU AMD EPYC 9354P, 32 ядра, 128 линий PCIe
RAM 256–512 GB DDR5
Накопители 2 × NVMe 3.84 TB
Корпус Full Tower с активным охлаждением

Как распределили нагрузку

  • 2 × RTX A6000 через NVLink (96 GB) — основная LLM 30B в режиме FP8, контекст до 1 млн токенов, инференс через vLLM.
  • 1 × RTX A6000 (48 GB) — Gemma 27B, BERT, ResNet в отдельной ВМ с проброшенным GPU.
  • Каждая задача в своей виртуальной машине, данные не смешиваются, ресурсы не конкурируют, легко контролировать.
  • Система работает в обычном помещении: без стойки, без специальной инфраструктуры.
  • 96 GB объединенной VRAM закрывают задачу по LLM 30B с контекстом 1M токенов в FP8.
  • Режим 24/7: стабильно, без тротлинга.
  • Данные не покидают контур компании.
  • Все уложилось в бюджет до 4 млн руб.

Похожая ситуация?

Этот кейс интересен, если:

  • Вы хотите запускать LLM или другие AI-модели локально, данные должны оставаться внутри.
  • Серверной нет, или сервер нужно поставить туда, где она не предусмотрена.
  • Вы уже выбрали конкретное железо, но не уверены, что оно сработает в ваших условиях.
  • Нужно держать несколько моделей одновременно, в изолированных контурах.
  • Бюджет ограничен и хочется не переплатить за то, что не будет работать.
Подберем любое оборудование* под ваш запрос

    * ноутбуки, настольные компьютеры, телефоны, планшеты и т.д.
    Translate »