Тип задачи
Тестирование GPU-серверов до отправки
Оборудование
2 × Supermicro AS-4125GS-TRNT: 2 × AMD EPYC 9274F + 2 × NVIDIA RTX PRO 6000 Blackwell 96GB каждый
Условие
Ограниченный электролимит на складе, удаленный доступ к стенду
Режим
Комплексные нагрузочные тесты по 7 направлениям
Результат
Оба сервера исправны, подготовлены к отгрузке
Резюме
Клиент купил два GPU-сервера Supermicro с RTX PRO 6000 Blackwell. Это консалтинговая компания с высоким уровнем ответственности, которая помогает бизнесу внедрять современные цифровые и ИИ-инструменты, автоматизировать внутренние процессы, повышать эффективность команд и перестраивать операционную модель под новые технологические возможности.
Перед отгрузкой нужно было убедиться, что оба сервера исправны. Заводской брак на таком железе не редкость, и обнаружить его лучше до того, как сервер окажется в дата-центре.
Работали удаленно: серверы развернули на складском стенде с remote access. Электролимит на складе не позволял гнать оборудование на полной мощности, поэтому тесты строились под этот потолок. Семь направлений: питание, диски, шины, межчиповая связь GPU, видеопамять, стресс-нагрузка, прошивки.
Дефектов не нашли. Оба сервера прошли проверку и ушли к клиенту.
Контекст и вводные
Supermicro AS-4125GS-TRNT — платформа под тяжелые вычисления. На каждом сервере два процессора AMD EPYC 9274F и две RTX PRO 6000 Blackwell по 96 GB памяти. Такое железо берут под обучение моделей, инференс, научные расчеты.
Проверить серверы нужно было до отгрузки, на складе. Две сложности. Первая: электролимит — на полную мощность выйти нельзя, тесты пришлось адаптировать. Вторая: физически на месте никого не было, все через удаленный доступ к стенду.
Почему предпродажное тестирование важно
Дефекты памяти GPU, проблемы с монтажом охлаждения, рассинхронизация прошивок: часть из них проявляется только под нагрузкой. Найти такое до отгрузки несравнимо дешевле, чем после. Замена компонента в уже развернутом продуктиве тянет за собой простой и повторное развертывание.
Семь направлений тестирования:
| Этап | Что проверяли | Что происходит без этого |
|---|---|---|
| 1. Платформа и питание (BMC/IPMI) | Датчики шасси, стабильность блоков питания под нагрузкой, журналы ошибок SEL | Нестабильный блок питания перезагружает сервер прямо во время обучения модели |
| 2. Накопители и RAM | Износ NVMe, битые блоки, скорость чтения/записи, диагностика оперативной памяти | Дефектный диск тормозит подачу данных к GPU, дорогие карты простаивают. Или сервер зависает при сохранении чекпоинта |
| 3. Шина PCIe | Ширина шин, корректность работы, аппаратные ошибки передачи (AER) | Сбои в PCIe дают заниженную пропускную способность: мощный GPU ждет данных из-за узкого канала к процессору |
| 4. Межчиповая связь GPU (NVLink) | Топология GPU, двунаправленная пропускная способность Device-to-Device, счетчики ошибок | Неисправный NVLink перебрасывает обмен данными на медленные пути |
| 5. Видеопамять GPU (HBM/ECC) | Пропускная способность HBM, счетчики ECC до и после нагрузок | Дефектная память дает Out of Memory, сбои драйвера или тихую порчу данных |
| 6. Стресс-тест на предельной мощности | gpu-burn и DCGM на максимуме, троттлинг по температуре и потреблению на каждом ядре | Дефект охлаждения виден только под нагрузкой: сервер снижает частоты и выдает 60% от паспортной скорости |
| 7. Прошивки и VBIOS | Версии прошивок материнской платы, сетевых карт Mellanox, VBIOS на всех GPU-узлах | Рассинхронизация версий дает плавающие баги на уровне драйверов, особенно при объединении серверов в кластер |
| Параметр | ㅤ |
|---|---|
| Оборудование | 2 × Supermicro AS-4125GS-TRNT |
| GPU на сервер | 2 × NVIDIA RTX PRO 6000 Blackwell 96GB |
| CPU на сервер | 2 × AMD EPYC 9274F |
| Формат доступа | Удаленный — тестовый стенд с remote access |