Два сервера Supermicro перед отгрузкой. Проверили все: от питания до прошивок

  • Тип задачи

    Тестирование GPU-серверов до отправки

  • Оборудование

    2 × Supermicro AS-4125GS-TRNT: 2 × AMD EPYC 9274F + 2 × NVIDIA RTX PRO 6000 Blackwell 96GB каждый

  • Условие

    Ограниченный электролимит на складе, удаленный доступ к стенду

  • Режим

    Комплексные нагрузочные тесты по 7 направлениям

  • Результат

    Оба сервера исправны, подготовлены к отгрузке

Резюме

Клиент купил два GPU-сервера Supermicro с RTX PRO 6000 Blackwell. Это консалтинговая компания с высоким уровнем ответственности, которая помогает бизнесу внедрять современные цифровые и ИИ-инструменты, автоматизировать внутренние процессы, повышать эффективность команд и перестраивать операционную модель под новые технологические возможности. 

Перед отгрузкой нужно было убедиться, что оба сервера исправны. Заводской брак на таком железе не редкость, и обнаружить его лучше до того, как сервер окажется в дата-центре.

Работали удаленно: серверы развернули на складском стенде с remote access. Электролимит на складе не позволял гнать оборудование на полной мощности, поэтому тесты строились под этот потолок. Семь направлений: питание, диски, шины, межчиповая связь GPU, видеопамять, стресс-нагрузка, прошивки.
Дефектов не нашли. Оба сервера прошли проверку и ушли к клиенту.

Контекст и вводные

Supermicro AS-4125GS-TRNT — платформа под тяжелые вычисления. На каждом сервере два процессора AMD EPYC 9274F и две RTX PRO 6000 Blackwell по 96 GB памяти. Такое железо берут под обучение моделей, инференс, научные расчеты.

Проверить серверы нужно было до отгрузки, на складе. Две сложности. Первая: электролимит — на полную мощность выйти нельзя, тесты пришлось адаптировать. Вторая: физически на месте никого не было, все через удаленный доступ к стенду.

Почему предпродажное тестирование важно

Дефекты памяти GPU, проблемы с монтажом охлаждения, рассинхронизация прошивок: часть из них проявляется только под нагрузкой. Найти такое до отгрузки несравнимо дешевле, чем после. Замена компонента в уже развернутом продуктиве тянет за собой простой и повторное развертывание.

Ход работ

Семь направлений тестирования:

Этап Что проверяли Что происходит без этого
1. Платформа и питание (BMC/IPMI) Датчики шасси, стабильность блоков питания под нагрузкой, журналы ошибок SEL Нестабильный блок питания перезагружает сервер прямо во время обучения модели
2. Накопители и RAM Износ NVMe, битые блоки, скорость чтения/записи, диагностика оперативной памяти Дефектный диск тормозит подачу данных к GPU, дорогие карты простаивают. Или сервер зависает при сохранении чекпоинта
3. Шина PCIe Ширина шин, корректность работы, аппаратные ошибки передачи (AER) Сбои в PCIe дают заниженную пропускную способность: мощный GPU ждет данных из-за узкого канала к процессору
4. Межчиповая связь GPU (NVLink) Топология GPU, двунаправленная пропускная способность Device-to-Device, счетчики ошибок Неисправный NVLink перебрасывает обмен данными на медленные пути
5. Видеопамять GPU (HBM/ECC) Пропускная способность HBM, счетчики ECC до и после нагрузок Дефектная память дает Out of Memory, сбои драйвера или тихую порчу данных
6. Стресс-тест на предельной мощности gpu-burn и DCGM на максимуме, троттлинг по температуре и потреблению на каждом ядре Дефект охлаждения виден только под нагрузкой: сервер снижает частоты и выдает 60% от паспортной скорости
7. Прошивки и VBIOS Версии прошивок материнской платы, сетевых карт Mellanox, VBIOS на всех GPU-узлах Рассинхронизация версий дает плавающие баги на уровне драйверов, особенно при объединении серверов в кластер

Результат

Что проверили

Параметр
Оборудование 2 × Supermicro AS-4125GS-TRNT
GPU на сервер 2 × NVIDIA RTX PRO 6000 Blackwell 96GB
CPU на сервер 2 × AMD EPYC 9274F
Формат доступа Удаленный — тестовый стенд с remote access

Что по итогу

  • Оба сервера прошли стресс-тестирование по всем семи направлениям с учетом электролимита.
  • Скрытых дефектов не обнаружено.
  • Оборудование подготовлено к отгрузке с отчетностью.

Похожая ситуация?

Этот кейс интересен, если:

  • Вы берете дорогостоящие GPU-серверы и хотите знать их реальное состояние до развертывания.
  • Оборудование поступает со склада или через посредника.
  • Простой или скрытый дефект в вашей инфраструктуре обойдется дороже, чем проверка до запуска.
  • Нужен независимый технический контроль перед приемкой.
Подберем любое оборудование* под ваш запрос

    * ноутбуки, настольные компьютеры, телефоны, планшеты и т.д.
    Translate »