Новости
13.04.2026
5 минут
Новости
13.04.2026
5 минут
На CES в январе 2026-го Дженсен Хуанг, сооснователь, президент и главный исполнительный директор компании NVIDIA, объявил, что Vera Rubin запущена в производство. Коммерческие поставки ожидаются во второй половине года. Vera Rubin — это сразу семь чипов, разработанных одновременно для обучения и инференса больших языковых моделей промышленного масштаба. Не сервер с GPU внутри, а стойка целиком. В этой статье — технический разбор архитектуры Vera Rubin, характеристик, конкурентов и того, что это означает для рынка серверной инфраструктуры.
| Дата | Событие |
|---|---|
| Май 2024 | Первый анонс архитектуры Rubin на Computex в Тайпее — Дженсен Хуанг впервые назвал Rubin преемником Blackwell в публичной плоскости. |
| Март 2025 | GTC 2025 — первое детальное раскрытие архитектуры суперчипа Vera Rubin и шестичиповой платформы; предварительное объявление компонентов. |
| Сентябрь 2025 | AI Infra Summit — анонс Rubin CPX: специализированного GPU для обработки контекста в 1 млн токенов. Объявлена платформа NVL144 CPX с производительностью 8 эксафлопс. |
| Декабрь 2025 | NVIDIA объявляет о сделке с Groq на сумму около $20 млрд: неэксклюзивная лицензия на инференс-технологию LPU и переход к NVIDIA основателя Джонатана Росса, президента Санни Мадры и команды инженеров. Крупнейшая сделка в истории NVIDIA. |
| Январь 2026 | CES 2026 — официальный запуск. Дженсен Хуанг заявляет о производстве Vera Rubin. Объявлены партнерства с Microsoft, Oracle, AWS, Google Cloud, CoreWeave, HPE, Dell и другими. Поставки — II половина 2026 года. |
| Март 2026 | GTC 2026 — платформа расширена до семи чипов за счет добавления Groq 3 LPU — специализированного ускорителя инференса с малой задержкой. |
«Vera Rubin появляется точно в нужный момент: спрос на ИИ-вычисления для обучения и инференса буквально взлетает до небес. С нашим ежегодным циклом выпуска новых поколений ИИ-суперкомпьютеров и экстремальным совместным проектированием шести новых чипов Rubin делает гигантский скачок к следующему рубежу ИИ», —
Дженсен Хуанг, CEO NVIDIA, CES 2026 (источник)
Vera Rubin — семичиповая вычислительная платформа NVIDIA для обучения и инференса больших языковых моделей. Названа в честь американского астронома Веры Рубин (1928–2016), чьи работы по вращению галактик стали одним из ключевых свидетельств существования темной материи.
Все семь чипов платформы разрабатывались одновременно под одну задачу: GPU, CPU, сетевые адаптеры, коммутаторы и DPU согласованы так, чтобы ни один из них не становился узким местом. В предыдущих поколениях компоненты оптимизировались по отдельности. Флагманская конфигурация NVL72 рассматривает стойку целиком как базовую единицу вычислений.
Платформа Vera Rubin изначально состояла из шести специализированных чипов; в марте 2026 года к ним добавился седьмой.
Центральный вычислительный компонент. Производится по 3-нм техпроцессу TSMC (N3/N3P). Предыдущий Blackwell использовал 4NP.
Преемник процессора Grace на архитектуре Arm. Проектное имя ядра — «Olympus».
Шестое поколение фирменного интерконнекта NVIDIA для объединения GPU в единое вычислительное поле.
Сетевой адаптер для масштабирования наружу (scale-out).
Специализированный процессор разгрузки (Data Processing Unit), освобождающий GPU от системных задач.
Решение для масштабирования до тысяч стоек.
Добавлен в платформу на GTC 2026 как специализированный низколатентный инференс-ускоритель. Ориентирован на агентные нагрузки, где главный параметр — скорость генерации токенов, а не пиковый FLOPS.
В официальных материалах GTC 2026 NVIDIA использует обозначения Groq 3 LPX и Groq 3 LPU в разных контекстах.
В таблице ниже — сравнение параметров GPU Rubin и его предшественника Blackwell (B200) (источники: NVIDIA Newsroom, VideoCardz):
| Параметр | Rubin (R100) | Blackwell (B200) |
|---|---|---|
| Техпроцесс | TSMC 3nm (N3/N3P) | TSMC 4NP |
| Транзисторов | 336 млрд | 208 млрд |
| Архитектура кристалла | Dual-die (2 reticle) | Dual-die |
| Память | HBM4, до 288 ГБ | HBM3e, до 192 ГБ |
| Пропуск. способность памяти | до 22 ТБ/с | до 8 ТБ/с |
| Пиков. произв. (NVFP4, инференс) |
50 петафлопс | 10 петафлопс |
| Пиков. произв. (NVFP4, обучение) |
35 петафлопс | 10 петафлопс |
| Интерконнект GPU-GPU | NVLink 6 / 3,6 ТБ/с | NVLink 5 / 1,8 ТБ/с |
| Сетевой адаптер | ConnectX-9 / 1,6 Тбит/с |
ConnectX-8 / 800 Гбит/с |
| Охлаждение (NVL72) | 100% жидкостное | Воздушное / жидкостное |
| TDP (GPU) | ~2 300 Вт | до 1 200 Вт |
* Показатели пропускной способности памяти для Blackwell B200 актуальны для варианта с HBM3e. Параметры Rubin GPU — заявленные NVIDIA данные (CES 2026, GTC 2026).
NVL72 — основная конфигурация Vera Rubin, сконструированная как самодостаточная единица вычислений промышленного масштаба.
«NVIDIA Vera Rubin NVL72 объединяет 72 GPU Rubin, 36 CPU Vera, NVLink 6, BlueField-4 DPU и ConnectX-9 в единую, защищенную систему», —
NVIDIA Newsroom, январь 2026 (источник)
Для ServerICT важный сдвиг в Vera Rubin — переход от сервера к стойке как базовой единице вычислений. Это меняет сам подход к проектированию: приходится учитывать не только GPU, но и питание, охлаждение и сетевую связность на уровне всей стойки. На практике это означает, что часть задач, которые раньше можно было закрыть стандартными GPU-серверами, теперь требует либо модернизации площадки, либо выбора другой архитектуры.
Более компактная конфигурация для тех, кто строит ИИ-инфраструктуру на базе традиционных x86-серверов. Восемь GPU Rubin соединяются через NVLink в рамках одного серверного модуля. Ориентирован на обучение, инференс и научные вычисления в средах, где интеграция с x86-экосистемой принципиальна.
В сентябре 2025 года на AI Infra Summit NVIDIA анонсировала Rubin CPX — специализированный GPU для нагрузок с длинным контекстом. Он отличался от стандартного Rubin GPU принципиально: монолитный кристалл, 128 ГБ GDDR7 вместо HBM4 (дешевле, меньше энергопотребление), 30 петафлопс NVFP4 и 3-кратное ускорение attention-операций по сравнению с GB300 NVL72. На его основе планировалась конфигурация NVL144 CPX: 8 эксафлопс, 100 ТБ быстрой памяти, 1,7 ПБ/с пропускной способности в одной стойке.
На GTC в марте 2026 года NVIDIA сняла Rubin CPX с роадмапа. Вице-президент NVIDIA по HPC Иэн Бак подтвердил это на пресс-сессии GTC 2026. На слайдах кейноута Дженсена Хуанга Rubin CPX отсутствовал, вместо него в качестве инструмента для низколатентного инференса был представлен Groq 3 LPX Rack.
По словам Бака, идея CPX не отброшена — аналогичное решение может вернуться с поколением Feynman (~2028). Причина отмены: фокус сместился с обработки длинного контекста (prefill) на скорость декодирования токенов, где архитектура LPU от Groq оказалась более релевантной.
Что заменило CPX: для низколатентного агентного инференса теперь используется Groq 3 LPX Rack — 256 LPU-процессоров с 128 ГБ SRAM, 40 ПБ/с пропускной способности памяти и 640 ТБ/с scale-up полосы на стойку. В связке с NVL72 платформа обеспечивает 35-кратное превосходство по пропускной способности на ватт для моделей размером триллион параметров по сравнению с Blackwell.
Vera Rubin полностью совместима с актуальными версиями CUDA и библиотеками CUDA-X. Существующий код для Hopper и Blackwell переносится без полного переписывания. Для использования NVFP4 и расширенного Transformer Engine потребуется дополнительная оптимизация.
Облачные провайдеры, подтвердившие интеграцию: Microsoft Azure (суперзаводы Fairwater AI), Oracle Cloud Infrastructure, AWS, Google Cloud, CoreWeave, Lambda, Nebius, Nscale.
Все цифровые показатели в этом разделе — заявленные NVIDIA характеристики для конкретных сценариев использования, а не результаты независимого тестирования. Они взяты из официальных материалов компании (CES 2026, GTC 2026) и должны восприниматься именно как заявления производителя до появления независимых бенчмарков.
Снижение стоимости инференса в 10 раз. Для операторов ИИ-инфраструктуры это главная цифра. NVIDIA обещает стоимость генерации токена на Vera Rubin в 10 раз ниже, чем на Blackwell. Для компаний, которые обрабатывают миллиарды запросов в сутки, это прямое влияние на удельную экономику продукта.
Сокращение парка GPU для обучения MoE-моделей в 4 раза. Mixture-of-Experts — одна из ключевых архитектур современных больших языковых моделей (GPT-4, Gemini, Llama и их потомки). Rubin позволяет обучить ту же MoE-модель, используя в четыре раза меньше GPU по сравнению с Blackwell-системами. Это высвобождает ресурсы для параллельного запуска дополнительных задач.
Радикальное упрощение обслуживания. Полностью беспроводная конструкция стойки NVL72 и модульные сервисные секции позволяют обслуживать коммутаторные модули без остановки всей системы. Время замены модуля — 5 минут против 2 часов у Blackwell. Для операторов с требованиями к SLA 99,99%+ это существенная разница.
Rack-scale Confidential Computing. По заявлению NVIDIA, это первая в индустрии доверенная вычислительная среда уровня стойки (Trusted Execution Environment). BlueField-4 с архитектурой ASTRA обеспечивает централизованное управление безопасностью, изоляцию пользовательских сред и защиту данных в масштабе всего NVL72 как единой доверенной зоны.
По оценкам аналитиков, NVIDIA контролирует порядка 80–90% рынка ИИ-ускорителей для дата-центров — эта цифра фигурирует в большинстве отраслевых отчетов, хотя конкретные числа расходятся в зависимости от методологии подсчета. Но конкуренция усиливается. И со стороны традиционных производителей чипов, и со стороны собственного кремния гиперскейлеров.
Главный прямой конкурент в сегменте дискретных GPU для ИИ. AMD позиционирует MI450 как альтернативу Rubin с меньшей совокупной стоимостью владения (TCO):
Слабость AMD — отсутствие экосистемы уровня CUDA. Переход с NVIDIA на AMD требует значительных инвестиций в адаптацию кода.
Для NVIDIA это долгосрочная стратегическая проблема: крупнейшие облачные провайдеры разрабатывают собственные чипы, снижая зависимость от внешних поставщиков.
Ни один из этих продуктов не конкурирует с Rubin по универсальности — они оптимизированы под конкретные задачи конкретного облака. Однако они ограничивают потенциал роста NVIDIA внутри крупнейших облачных провайдеров.
Gaudi 3 показывал 1,5x ускорение обучения по сравнению с H100 при меньшем энергопотреблении, но в сравнении с Blackwell и Rubin разрыв быстро растет. Intel отменил Falcon Shores и сосредоточился на Jaguar Shores — rack-scale AI-ускорителе на узле Intel 18A с HBM4 и кремниевой фотоникой. Объем производства ожидается во второй половине 2026-го, ряд аналитиков сдвигает реалистичную дату на 2027-й.
Номенклатура будущих продуктов Intel неоднократно менялась. Названия «Jaguar Shores», «Gaudi 4» и «Falcon Shores» в разное время использовались для разных продуктов.
| Параметр | NVIDIA Rubin | AMD MI450 | Google TPU v7 | Intel (след. поколение) |
|---|---|---|---|---|
| Произв-ть FP4/FP8 | 50 / ~25 PFLOPS | 40 / ~20 PFLOPS | — | — |
| Память (макс.) | 288 ГБ HBM4 | 432 ГБ HBM4 | 192 ГБ HBM3e | — |
| Полоса памяти | 22 ТБ/с | 19,6 ТБ/с | 7,4 ТБ/с | — |
| Сильная сторона | Экосистема CUDA, скорость инференса, rack-scale | Объем памяти, TCO | Специализир. инференс в GCP | Энергоэфф. (edge) |
| Слабая сторона | Высокая стоимость, TDP ~2300 Вт/GPU | Экосистема, зрелость ПО | Только внутри GCP | Слабые позиции в training |
| Доступность | H2 2026 | Q3 2026 | Развернут (ноябрь 2025) | Ориентировочно конец 2026 |
Следующее поколение в рамках той же платформенной архитектуры. Заявленные характеристики:
Обновление на апрель 2026: По данным отраслевых источников, оригинальная четырехкристальная компоновка Rubin Ultra была пересмотрена в сторону двухкристальной из-за проблем с выходом годных чипов на упаковке TSMC CoWoS-L и деформации подложки при четырех кристаллах. NVIDIA заявляет, что двухкристальная Rubin Ultra сохранит 3,5-кратное улучшение инференс-производительности на ватт по сравнению с B300.
Следующее поколение после Rubin Ultra, запланированное на 2028 год. На GTC 2026 NVIDIA подтвердила основные контуры платформы: 3D-стекинг для увеличения плотности вычислений, новый CPU Rosa (Rosalind Franklin), NVLink 8-го поколения, BlueField-5, Spectrum-7, инференс-ускоритель Groq LP40 и кастомную HBM-память. По данным журналистов, компания уже использует GPU Blackwell для ускорения проектирования Feynman. Детальные характеристики производительности публично не раскрывались.
Vera Rubin — это семь чипов, работающих сообща, и стойка как единица вычислений. По заявлению NVIDIA, 10-кратное снижение стоимости токена в сравнении с Blackwell. Новая архитектура безопасности на уровне всей стойки. Цифры производительности подтвердит рынок после начала поставок.
Для операторов, проектирующих объекты на горизонте 2026–2028 годов, Vera Rubin задает новые требования к мощности, охлаждению и сетевой архитектуре. 187–230 кВт на стойку при 100% жидкостном охлаждении — не то, что влезает в стандартный дата-центр. Кто закладывает инфраструктуру сейчас, не учитывая эти параметры, получит объект, который устареет еще до открытия.
Поставки серийных систем ожидаются во второй половине 2026 года. Тогда и появятся первые независимые бенчмарки, и можно будет сравнить реальные показатели с заявленными.
Коммерческие поставки NVL72, NVL8 и дальнейших конфигураций — вторая половина 2026 года. AWS, Google Cloud, Microsoft и Oracle названы в числе первых провайдеров.
По заявлению NVIDIA: 5x прирост инференса, 3,5x прирост обучения, 10x снижение стоимости токена, 2,8x рост пропускной способности памяти. Переход на HBM4 и TSMC 3nm. Плюс семь чипов, разработанных как единая система.
Да. Существующий код совместим с CUDA и CUDA-X. Для использования NVFP4 и расширенного Transformer Engine потребуется дополнительная оптимизация.
4-битные числа с плавающей точкой — формат пониженной точности, ставший стандартом для быстрого инференса LLM. При минимальной потере качества генерации увеличивает пропускную способность и снижает потребление памяти. GPU Rubin обеспечивает 50 петафлопс в этом формате.
Агентный ИИ, reasoning-модели (Chain-of-Thought, o-серия), MoE-модели, обучение LLM, мультимодальные модели, генеративное видео, инференс с ультрадлинным контекстом (через Groq 3 LPX Rack).
187–230 кВт на стойку при 100% жидкостном охлаждении существенно превышает возможности большинства стандартных объектов. NVIDIA рекомендует проектировать под Rubin новые или специально модернизированные дата-центры.
Microsoft Azure, Oracle Cloud Infrastructure, AWS, Google Cloud, CoreWeave, Lambda, Nebius, Nscale, HPE, Dell Technologies.
Rubin превосходит MI450 по производительности FP4 (50 vs 40 PFLOPS) и зрелости экосистемы. AMD MI450 имеет больший объем памяти HBM4 (432 vs 288 ГБ) и претендует на более низкую TCO. Переход с NVIDIA на AMD требует существенных инвестиций в адаптацию кода.
Вторая половина 2027 года. 100 петафлопс FP4 на GPU, 1 ТБ HBM4e, конфигурация NVL576 с 15 эксафлопс инференса.
Мы делимся новостями отрасли, мнениями экспертов, полезными обзорами и обновлениями услуг.
Получайте уведомления от нас — будьте в курсе самого важного!
0 комментариев