Кейс
24.04.2026
2 минуты
Кейс
24.04.2026
2 минуты
GPU-сервер приходит со склада с гарантией производителя и внешне выглядит нормально. Но часть дефектов при обычной приемке не видна: они проявляются только под нагрузкой. Разбираем, откуда берется брак, как он выглядит в продуктиве и что нужно проверить до того, как железо окажется в дата-центре.
Производство современных GPU — один из самых сложных процессов в полупроводниковой отрасли. Каждый чип проходит несколько стадий, и на каждой возможны потери.
Джейсон Хоффман, исследователь в области физики полупроводников с опытом работы в Гарвардском университете, Национальной лаборатории Аргонна, Национальных лабораториях Сандии, подробно разбирает четыре последовательных стадии до отгрузки: формирование кристалла (wafer), упаковка с HBM-памятью на интерпозере (CoWoS-L), прожиг-тест (burn-in) и финальная функциональная проверка. Потери перемножаются на каждом этапе.
| Стадия | Что происходит | Типичные потери |
|---|---|---|
| Кристалл (wafer) | Фотолитография на TSMC N4/N5 | 5–15% |
| Упаковка (CoWoS-L) | Сборка чиплетов, интерпозера и HBM | 5–15% |
| Burn-in | Тепловой и электрический стресс | 2–8% |
| Финальная проверка | Функциональная валидация модуля | 1–3% |
При умеренных потерях совокупный выход годных модулей — около 75%. При раннем освоении нового техпроцесса он падает до 60% и ниже. Производители эти цифры не публикуют. Единственное косвенное подтверждение от NVIDIA — упоминание в отчетности за 2025 год факта отгрузки «низкоурожайного материала Blackwell».
Эти потери встраиваются в цену каждого проданного GPU. Покупатель платит за отбракованные единицы, просто никогда их не видит.
У Blackwell ситуацию усложняет архитектура. Чип B200 состоит из двух кристаллов, соединенных через NVLink-C2C на интерпозере CoWoS-L. Каждый модуль содержит 8 стопок HBM3e-памяти с 8–12 кристаллами DRAM. Сбой одного кристалла приводит к потере всей стопки.
Многие дефекты GPU латентны. Сервер включается, проходит инициализацию, nvidia-smi показывает все карты, а дефект проявляется позже: когда нагрузка устойчивая, температура вышла на рабочий режим, несколько компонентов работают одновременно.
Показательный пример с реальными данными: обучение Llama 3 405B на кластере из 16 384 GPU H100. За 54 дня тренировки кластер пережил 419 незапланированных прерываний — одно каждые три часа. GPU и их память HBM3 стали причиной 58,7% всех сбоев: 148 прерываний (30,1%) — неисправности GPU, 72 (17,2%) — отказы HBM3.
Исследователи Epoch AI рассчитали: одиночный H100 выходит из строя раз в 50 000 часов. Кластер из 100 000 GPU сталкивается с отказом каждые 30 минут. Из миллиона — каждые 3 минуты.
Дефектная HBM-память может не вызывать явных сбоев. Счетчики ECC фиксируют исправленные ошибки, а нескорректированные ошибки означают, что веса модели повреждены. Модель работает, метрики выглядят нормально, но результаты деградируют. Симптомы появляются далеко от источника.
Дефект монтажа охлаждения GPU не виден при осмотре. Под нагрузкой температура превышает порог, драйвер снижает тактовую частоту. Сервер работает, но производительность падает до 60% от паспортной. Без мониторинга это незаметно, пока не начинается сравнение с ожидаемым throughput.
Together AI в практическом руководстве по тестированию GPU-кластеров описывает типичный сценарий: при распределенном обучении один сбойный GPU требует перезапуска всей задачи. Обучение синхронно — система либо работает полностью, либо останавливается.
Каждое направление закрывает отдельный класс рисков.
На практике именно на этом этапе чаще всего возникают ошибки. Мы в ServerICT регулярно сталкиваемся с ситуациями, когда оборудование полностью проходит базовую проверку, но выявляет дефекты только при нагрузочном тестировании. Поэтому все проверки выполняем комплексно от платформы до межчиповой связи GPU.
BMC собирает данные со всех датчиков шасси и ведет журнал системных ошибок SEL. Здесь видно, как блоки питания держат нагрузку и есть ли аномалии напряжения до начала стресс-тестов. Например, RTX PRO 6000 Blackwell потребляет до 600 Вт на карту — нестабильный блок питания при пиковой нагрузке перезагружает сервер в ходе обучения, с потерей прогресса с последнего чекпоинта.
Накопители кешируют датасеты и сохраняют чекпоинты. Дефектный диск с битыми блоками или упавшей скоростью чтения становится узким местом: GPU простаивают в ожидании данных. В худшем случае сервер зависает при сохранении чекпоинта и теряет часы работы. SMART-параметры и скорость NVMe помогают это выявить.
PCIe — канал передачи данных между процессором и GPU. Сбои в линиях (счетчики AER) снижают пропускную способность: мощный GPU ждет данных из-за узкого канала к CPU. NVIDIA GPU Operator включает PCIe в стандартный набор проверок при развертывании кластера.
NVLink отвечает за прямой обмен данными между GPU без CPU. Если NVLink неисправен, обмен идет резервными путями и обучение растягивается с недель до месяцев. В кластере Llama 3 405B отказы NVLink вошли в крупнейшую категорию прерываний. Проверка топологии и пропускной способности Device-to-Device выявляет неисправные каналы до развертывания.
HBM-память хранит веса модели во время работы. ECC фиксирует два типа ошибок: исправленные однобитовые (SBE) и нескорректированные двухбитовые (DBE). DBE означает аппаратный сбой — данные не восстановить. RTX PRO 6000 Blackwell поддерживает ECC в GDDR7 без потери производительности: биты коррекции хранятся отдельно от основного массива.
Инструменты gpu-burn и NVIDIA DCGM создают максимальную вычислительную нагрузку и мониторят температуру и частоты каждого ядра. Дефект монтажа теплоотвода проявляется именно здесь: температура бьет в лимит, драйвер снижает частоты. При ограниченном электролимите тесты адаптируются под реальный потолок мощности, не теряя в информативности.
| Инструмент | Что проверяет | Применение |
|---|---|---|
| gpu-burn | Нагрузка, ECC-ошибки, тротлинг | Стресс-тест GPU |
| NVIDIA DCGM | Память, PCIe, NVLink, температура | Диагностика |
| nvme-cli | Износ диска, битые блоки | Проверка NVMe |
| ipmitool | Датчики, питание, журнал | Платформа |
| nvidia-smi | Состояние GPU | Мониторинг |
Together AI в своем руководстве по тестированию кластеров описывает подход: каждая подсистема проверяется изолированно, потом запускается сквозная нагрузка с реальной архитектурой модели. Это выявляет проблемы, которые не видны при тестировании компонентов по отдельности.
Интегратор Puget Systems публикует ежегодные отчеты по отказам оборудования. В отчете за 2021 год Quadro RTX 4000 дали 15% отказов при приемочном тестировании. Причина — заводской дефект порта VirtualLink. По всем картам с мая 2020 года порт был неисправен. Карты проходили заводской контроль качества, но не проходили приемку у интегратора. Puget прекратил продажи до устранения проблемы.
В 2025 году ситуация лучше: NVIDIA Founders Edition возглавили рейтинг надежности с 0,25% отказов. Но это уже после приемочного тестирования — карты board-партнеров дают более высокий процент брака.
RTX PRO 6000 Blackwell — относительно свежая архитектура, и первые месяцы эксплуатации выявили специфические проблемы. По данным SemiAnalysis, при освоении производства Blackwell возникало коробление подложки при термическом циклировании под нагрузкой 1000 Вт. NVIDIA переработала верхние металлические слои и геометрию контактных площадок.
На форумах NVIDIA зафиксированы случаи NV_ERR_GPU_IN_FULLCHIP_RESET при длительном инференсе через vLLM: GPU уходит в невосстанавливаемое состояние, которое лечится только полным выключением питания. Воспроизводится при 28°C — это программно-аппаратный баг GSP-прошивки, не тепловая проблема. Также зафиксированы проблемы совместимости SM120 с SM100: ядра, скомпилированные под SM100, не работают на SM120, что ломает ряд моделей в vLLM.
В release notes ROCm 6.2.1 AMD указала проблему для Instinct MI300X: восстановительный reset после uncorrectable errors может завершаться неуспешно. В результате система остается в неопределенном состоянии, для возврата в работу требуется перезагрузка, а журналирование ошибок в таких сценариях может не сработать. Осложняется даже диагностика, не только эксплуатация.
В release notes NCCL описана известная проблема для систем на Intel Skylake и новее: direct P2P-обмен между GPU через разные PCIe root ports по умолчанию не включается из-за деградации производительности на этих CPU. Для обхода Intel и OEM-вендоры добавили BIOS-настройку PCIe Peer-to-Peer Serialization. Только после ее включения direct P2P можно вернуть на уровне NCCL. Это пример платформенной проблемы.
Джейсон Хоффман формулирует так:
Предпродажное тестирование работает с первым и вторым типом. Третий управляется мониторингом уже в продуктиве.
| Что бывает без тестирования
Introl приводит задокументированный случай: производственный AI-кластер встал через 72 часа после развертывания. Синхронные задачи обучения спровоцировали тепловой перегрев на 2000 GPU H100. Приемочный стресс-тест длился 4 часа при неполной нагрузке тепловая аккумуляция при длительной работе не проявилась. |
Burn-in — стандартная практика производителей и облачных провайдеров для выявления ранних отказов. По данным Introl, для продуктивных AI-систем burn-in длится от 72 до 168 часов. NVIDIA утверждает, что такой подход устраняет 98% отказов в гарантийный период. Microsoft Azure запускает DCGM-диагностику на 100 000 GPU ежедневно.
Для покупателя двух серверов полный 168-часовой прожиг избыточен — это практика гиперскейлеров. Но несколько часов интенсивной нагрузки с мониторингом ключевых метрик выявят ранние отказы раньше, чем они проявятся в продуктиве.
Провайдер Raymii.org описывает опыт облачной платформы OpenStack: после внедрения автоматизированного burn-in за три месяца поймали более двух десятков проблемных узлов до продуктива. В сэкономленных человеко-часах на RMA и замену почти три человека на неделю.
Недавно мы тестировали именно такую задачу. Клиент купил два сервера Supermicro AS-4125GS-TNRT — каждый с двумя AMD EPYC 9274F и двумя NVIDIA RTX PRO 6000 Blackwell 96GB. Нужно было проверить оба до отгрузки.
Работали удаленно: на складе развернули тестовый стенд с remote access. Электролимит на складе не позволял выйти на полную мощность — пришлось адаптировать программу тестирования под реальный потолок. Типичная ситуация для предотгрузочных проверок вне дата-центра.
Прошли все семь направлений. Дефектов не нашли. Оба сервера прошли проверку и ушли к клиенту с документированными результатами по каждому направлению.
| Почему RTX PRO 6000 Blackwell требует особого внимания
Новое поколение с потреблением до 600 Вт на карту. Первые месяцы в сообществе выявили специфические проблемы с GSP-прошивкой и совместимостью стека. При тестировании нужно не просто убедиться, что карты работают, но и проверить совпадение версий VBIOS на обоих серверах. Рассинхронизацию при кластеризации позже очень сложно диагностировать. |
Нужно. Производственный контроль не ловит все дефекты — часть проявляется только под нагрузкой. Puget Systems задокументировали случай, когда 15% партии профессиональных GPU NVIDIA имели заводской дефект порта. Карты прошли заводской контроль, но не прошли приемочное тестирование у интегратора.
Тихая порча (silent data corruption) — когда дефектная память GPU генерирует вычислительные ошибки без краша и предупреждений. Модель обучается, метрики выглядят нормально, но веса постепенно искажаются. Обнаруживается при оценке качества, когда, возможно, потеряны дни или недели работы. ECC-счетчики выявляют такую память до запуска в продуктив.
Можно — именно так мы и работаем. На складе развертывается стенд с удаленным доступом (SSH + IPMI). Все семь направлений выполняются дистанционно: от считывания BMC-журналов до gpu-burn и DCGM. Физически нужно только подключить стенд.
Программа адаптируется под реальный потолок мощности. Стресс-тест запускается не на паспортном максимуме, а на допустимой мощности — с более длительной выдержкой. Диагностические тесты PCIe, NVLink, HBM и прошивок от электролимита не зависят и выполняются полностью.
Каждый. Дефекты в партии распределяются непредсказуемо: проблема может быть в одном блоке питания из четырех, в одной из двух карт, в версии прошивки на конкретном узле. Выборка не дает гарантии по остальным.
Для двух серверов с конфигурацией как в нашем кейсе — несколько дней с учетом многочасового стресс-теста. Точные сроки зависят от конфигурации, условий стенда и требуемой глубины проверки.
Замена компонента в уже развернутом сервере тянет за собой логистику, простой и повторное развертывание. Если сервер в арендованном дата-центре — еще и координацию с площадкой. Предотгрузочная проверка обходится дешевле при любом раскладе.
Мы делимся новостями отрасли, мнениями экспертов, полезными обзорами и обновлениями услуг.
Получайте уведомления от нас — будьте в курсе самого важного!
0 комментариев