Каталог

8 (499) 490-55-14

info@serverict.com

Новости

13.04.2026

5 минут

NVIDIA Vera Rubin: архитектура новой эпохи ИИ-вычислений

На CES в январе 2026-го Дженсен Хуанг, сооснователь, президент и главный исполнительный директор компании NVIDIA, объявил, что Vera Rubin запущена в производство. Коммерческие поставки ожидаются во второй половине года. Vera Rubin — это сразу семь чипов, разработанных одновременно для обучения и инференса больших языковых моделей промышленного масштаба. Не сервер с GPU внутри, а стойка целиком. В этой статье — технический разбор архитектуры Vera Rubin, характеристик, конкурентов и того, что это означает для рынка серверной инфраструктуры.

История создания и хронология анонсов

Дата	Событие
Май 2024	Первый анонс архитектуры Rubin на Computex в Тайпее — Дженсен Хуанг впервые назвал Rubin преемником Blackwell в публичной плоскости.
Март 2025	GTC 2025 — первое детальное раскрытие архитектуры суперчипа Vera Rubin и шестичиповой платформы; предварительное объявление компонентов.
Сентябрь 2025	AI Infra Summit — анонс Rubin CPX: специализированного GPU для обработки контекста в 1 млн токенов. Объявлена платформа NVL144 CPX с производительностью 8 эксафлопс.
Декабрь 2025	NVIDIA объявляет о сделке с Groq на сумму около $20 млрд: неэксклюзивная лицензия на инференс-технологию LPU и переход к NVIDIA основателя Джонатана Росса, президента Санни Мадры и команды инженеров. Крупнейшая сделка в истории NVIDIA.
Январь 2026	CES 2026 — официальный запуск. Дженсен Хуанг заявляет о производстве Vera Rubin. Объявлены партнерства с Microsoft, Oracle, AWS, Google Cloud, CoreWeave, HPE, Dell и другими. Поставки — II половина 2026 года.
Март 2026	GTC 2026 — платформа расширена до семи чипов за счет добавления Groq 3 LPU — специализированного ускорителя инференса с малой задержкой.

«Vera Rubin появляется точно в нужный момент: спрос на ИИ-вычисления для обучения и инференса буквально взлетает до небес. С нашим ежегодным циклом выпуска новых поколений ИИ-суперкомпьютеров и экстремальным совместным проектированием шести новых чипов Rubin делает гигантский скачок к следующему рубежу ИИ», —

Дженсен Хуанг, CEO NVIDIA, CES 2026 (источник)

Что такое NVIDIA Vera Rubin

Vera Rubin — семичиповая вычислительная платформа NVIDIA для обучения и инференса больших языковых моделей. Названа в честь американского астронома Веры Рубин (1928–2016), чьи работы по вращению галактик стали одним из ключевых свидетельств существования темной материи.

Все семь чипов платформы разрабатывались одновременно под одну задачу: GPU, CPU, сетевые адаптеры, коммутаторы и DPU согласованы так, чтобы ни один из них не становился узким местом. В предыдущих поколениях компоненты оптимизировались по отдельности. Флагманская конфигурация NVL72 рассматривает стойку целиком как базовую единицу вычислений.

Архитектура единого организма

Платформа Vera Rubin изначально состояла из шести специализированных чипов; в марте 2026 года к ним добавился седьмой.

GPU Rubin

Центральный вычислительный компонент. Производится по 3-нм техпроцессу TSMC (N3/N3P). Предыдущий Blackwell использовал 4NP.

Количество транзисторов: 336 миллиардов — рост на 61% по сравнению с 208 млрд у Blackwell.
Двухкристальная компоновка: два кристалла максимального для данного техпроцесса размера на один GPU (reticle-size).
Память: HBM4, до 288 ГБ на чип, пропускная способность до 22 ТБ/с.
По заявлению NVIDIA — до 50 петафлопс NVFP4 (инференс) и 35 петафлопс NVFP4 (обучение).
Энергопотребление: порядка 2300 Вт на GPU.

CPU Vera

Преемник процессора Grace на архитектуре Arm. Проектное имя ядра — «Olympus».

Количество транзисторов: 227 миллиардов.
Конфигурация: 88 ядер, 176 потоков.
Память: до 1,5 ТБ LPDDR5x (SOCAMM), пропускная способность до 1,2 ТБ/с.
Связь с GPU: когерентный интерконнект NVLink-C2C с пропускной способностью 1,8 ТБ/с.
Заявленный прирост производительности: 2x по операциям обработки данных и сжатия по сравнению с Grace.

NVLink 6 Switch (коммутатор масштабирования)

Шестое поколение фирменного интерконнекта NVIDIA для объединения GPU в единое вычислительное поле.

Пропускная способность GPU-GPU: 3,6 ТБ/с двунаправленно на GPU.
В конфигурации NVL72: суммарная полоса scale-up достигает 260 ТБ/с.
Каждый коммутаторный трей: 28,8 ТБ/с суммарной пропускной способности и 14,4 TFLOPS FP8 в сетевых вычислениях.

ConnectX-9 SuperNIC

Сетевой адаптер для масштабирования наружу (scale-out).

Пропускная способность: до 1,6 Тбит/с на GPU.
Поддержка InfiniBand и Ethernet.
Позволяет масштабировать кластеры без узких мест в сетевой подсистеме.

DPU BlueField-4

Специализированный процессор разгрузки (Data Processing Unit), освобождающий GPU от системных задач.

Пропускная способность: 800 Гбит/с.
Функции: обеспечение безопасности, управление хранилищем, сетевые операции, изоляция пользовательских сред.
Нововведение: технология ASTRA (Advanced Secure Trusted Resource Architecture) — единая точка доверенного контроля для безопасного развертывания, изоляции и управления крупными ИИ-средами без потерь производительности.

Коммутатор Spectrum-X Ethernet (Spectrum-6)

Решение для масштабирования до тысяч стоек.

Пропускная способность: 102,4 Тбит/с.
Встроенная фотоника (co-packaged optics) — снижает энергопотребление и задержки.

Седьмой чип: Groq 3 LPX / LPU (с марта 2026)

Добавлен в платформу на GTC 2026 как специализированный низколатентный инференс-ускоритель. Ориентирован на агентные нагрузки, где главный параметр — скорость генерации токенов, а не пиковый FLOPS.

В официальных материалах GTC 2026 NVIDIA использует обозначения Groq 3 LPX и Groq 3 LPU в разных контекстах.

Технические характеристики

В таблице ниже — сравнение параметров GPU Rubin и его предшественника Blackwell (B200) (источники: NVIDIA Newsroom, VideoCardz):

Параметр	Rubin (R100)	Blackwell (B200)
Техпроцесс	TSMC 3nm (N3/N3P)	TSMC 4NP
Транзисторов	336 млрд	208 млрд
Архитектура кристалла	Dual-die (2 reticle)	Dual-die
Память	HBM4, до 288 ГБ	HBM3e, до 192 ГБ
Пропуск. способность памяти	до 22 ТБ/с	до 8 ТБ/с
Пиков. произв. (NVFP4, инференс)	50 петафлопс	10 петафлопс
Пиков. произв. (NVFP4, обучение)	35 петафлопс	10 петафлопс
Интерконнект GPU-GPU	NVLink 6 / 3,6 ТБ/с	NVLink 5 / 1,8 ТБ/с
Сетевой адаптер	ConnectX-9 / 1,6 Тбит/с	ConnectX-8 / 800 Гбит/с
Охлаждение (NVL72)	100% жидкостное	Воздушное / жидкостное
TDP (GPU)	~2 300 Вт	до 1 200 Вт

* Показатели пропускной способности памяти для Blackwell B200 актуальны для варианта с HBM3e. Параметры Rubin GPU — заявленные NVIDIA данные (CES 2026, GTC 2026).

Главные конфигурации систем

NVIDIA Vera Rubin NVL72: флагманская стойка

NVL72 — основная конфигурация Vera Rubin, сконструированная как самодостаточная единица вычислений промышленного масштаба.

72 GPU Rubin + 36 CPU Vera, соединенных через NVLink 6.
По заявлению NVIDIA — 3,6 эксафлопс NVFP4 (инференс) / 2,5 эксафлопс (обучение).
Суммарный объем памяти HBM4: 20,7 ТБ; LPDDR5x: 54 ТБ.
Суммарная пропускная способность HBM: 1,6 ПБ/с.
Полоса scale-up (NVLink 6): 260 ТБ/с.
Энергопотребление стойки: ~187–230 кВт; к 2027 году с Rubin Ultra Kyber ожидается рост до 600 кВт.
100% жидкостное охлаждение.
Полностью модульная и беспроводная конструкция внутри шасси.
Время установки модуля: снижено с 2 часов (Blackwell) до 5 минут.
Новая система диагностики RAS: проверка состояния GPU без вывода из кластера, между контрольными точками обучения.

«NVIDIA Vera Rubin NVL72 объединяет 72 GPU Rubin, 36 CPU Vera, NVLink 6, BlueField-4 DPU и ConnectX-9 в единую, защищенную систему», —

NVIDIA Newsroom, январь 2026 (источник)

Что это меняет для проектов AI-инфраструктуры

Для ServerICT важный сдвиг в Vera Rubin — переход от сервера к стойке как базовой единице вычислений. Это меняет сам подход к проектированию: приходится учитывать не только GPU, но и питание, охлаждение и сетевую связность на уровне всей стойки. На практике это означает, что часть задач, которые раньше можно было закрыть стандартными GPU-серверами, теперь требует либо модернизации площадки, либо выбора другой архитектуры.

NVIDIA HGX Rubin NVL8: серверная плата для x86-платформ

Более компактная конфигурация для тех, кто строит ИИ-инфраструктуру на базе традиционных x86-серверов. Восемь GPU Rubin соединяются через NVLink в рамках одного серверного модуля. Ориентирован на обучение, инференс и научные вычисления в средах, где интеграция с x86-экосистемой принципиальна.

NVIDIA Vera Rubin NVL144 CPX: анонс и отмена

В сентябре 2025 года на AI Infra Summit NVIDIA анонсировала Rubin CPX — специализированный GPU для нагрузок с длинным контекстом. Он отличался от стандартного Rubin GPU принципиально: монолитный кристалл, 128 ГБ GDDR7 вместо HBM4 (дешевле, меньше энергопотребление), 30 петафлопс NVFP4 и 3-кратное ускорение attention-операций по сравнению с GB300 NVL72. На его основе планировалась конфигурация NVL144 CPX: 8 эксафлопс, 100 ТБ быстрой памяти, 1,7 ПБ/с пропускной способности в одной стойке.

На GTC в марте 2026 года NVIDIA сняла Rubin CPX с роадмапа. Вице-президент NVIDIA по HPC Иэн Бак подтвердил это на пресс-сессии GTC 2026. На слайдах кейноута Дженсена Хуанга Rubin CPX отсутствовал, вместо него в качестве инструмента для низколатентного инференса был представлен Groq 3 LPX Rack.

По словам Бака, идея CPX не отброшена — аналогичное решение может вернуться с поколением Feynman (~2028). Причина отмены: фокус сместился с обработки длинного контекста (prefill) на скорость декодирования токенов, где архитектура LPU от Groq оказалась более релевантной.

Что заменило CPX: для низколатентного агентного инференса теперь используется Groq 3 LPX Rack — 256 LPU-процессоров с 128 ГБ SRAM, 40 ПБ/с пропускной способности памяти и 640 ТБ/с scale-up полосы на стойку. В связке с NVL72 платформа обеспечивает 35-кратное превосходство по пропускной способности на ватт для моделей размером триллион параметров по сравнению с Blackwell.

Программная экосистема и совместимость

Vera Rubin полностью совместима с актуальными версиями CUDA и библиотеками CUDA-X. Существующий код для Hopper и Blackwell переносится без полного переписывания. Для использования NVFP4 и расширенного Transformer Engine потребуется дополнительная оптимизация.

NIM (NVIDIA Inference Microservices) — готовые контейнеры с предоптимизацией под конкретную аппаратную конфигурацию. Сокращают время развертывания с недель до часов.
TensorRT-LLM — оптимизированный движок инференса для LLM.
NeMo — фреймворк для обучения и кастомизации фундаментальных моделей.
Triton Inference Server — промышленный сервер инференса.
cuDNN, cuBLAS, NCCL — базовые библиотеки для DL-операций.

Облачные провайдеры, подтвердившие интеграцию: Microsoft Azure (суперзаводы Fairwater AI), Oracle Cloud Infrastructure, AWS, Google Cloud, CoreWeave, Lambda, Nebius, Nscale.

Преимущества для конечных пользователей

Все цифровые показатели в этом разделе — заявленные NVIDIA характеристики для конкретных сценариев использования, а не результаты независимого тестирования. Они взяты из официальных материалов компании (CES 2026, GTC 2026) и должны восприниматься именно как заявления производителя до появления независимых бенчмарков.

Снижение стоимости инференса в 10 раз. Для операторов ИИ-инфраструктуры это главная цифра. NVIDIA обещает стоимость генерации токена на Vera Rubin в 10 раз ниже, чем на Blackwell. Для компаний, которые обрабатывают миллиарды запросов в сутки, это прямое влияние на удельную экономику продукта.

Сокращение парка GPU для обучения MoE-моделей в 4 раза. Mixture-of-Experts — одна из ключевых архитектур современных больших языковых моделей (GPT-4, Gemini, Llama и их потомки). Rubin позволяет обучить ту же MoE-модель, используя в четыре раза меньше GPU по сравнению с Blackwell-системами. Это высвобождает ресурсы для параллельного запуска дополнительных задач.

Радикальное упрощение обслуживания. Полностью беспроводная конструкция стойки NVL72 и модульные сервисные секции позволяют обслуживать коммутаторные модули без остановки всей системы. Время замены модуля — 5 минут против 2 часов у Blackwell. Для операторов с требованиями к SLA 99,99%+ это существенная разница.

Rack-scale Confidential Computing. По заявлению NVIDIA, это первая в индустрии доверенная вычислительная среда уровня стойки (Trusted Execution Environment). BlueField-4 с архитектурой ASTRA обеспечивает централизованное управление безопасностью, изоляцию пользовательских сред и защиту данных в масштабе всего NVL72 как единой доверенной зоны.

Конкурентная среда

По оценкам аналитиков, NVIDIA контролирует порядка 80–90% рынка ИИ-ускорителей для дата-центров — эта цифра фигурирует в большинстве отраслевых отчетов, хотя конкретные числа расходятся в зависимости от методологии подсчета. Но конкуренция усиливается. И со стороны традиционных производителей чипов, и со стороны собственного кремния гиперскейлеров.

AMD Instinct MI450

Главный прямой конкурент в сегменте дискретных GPU для ИИ. AMD позиционирует MI450 как альтернативу Rubin с меньшей совокупной стоимостью владения (TCO):

Производительность: ~40 петафлопс FP4 — на 20% меньше, чем у Rubin.
Память: 432 ГБ HBM4 — на 50% больше, чем у Rubin (288 ГБ). Значимое преимущество для MoE-моделей с большим количеством параметров.
Пропускная способность памяти: 19,6 ТБ/с.
Масштабирование: 3,6 ТБ/с (scale-up), 300 ГБ/с (scale-out).
Ожидаемый выход: Q3 2026 (системы Helios).
Доля рынка AMD в сегменте ИИ-ускорителей: ~10% по состоянию на начало 2026 года.

Слабость AMD — отсутствие экосистемы уровня CUDA. Переход с NVIDIA на AMD требует значительных инвестиций в адаптацию кода.

Custom Silicon

Для NVIDIA это долгосрочная стратегическая проблема: крупнейшие облачные провайдеры разрабатывают собственные чипы, снижая зависимость от внешних поставщиков.

Google TPU v7 Ironwood: до 9 216 чипов в одном поде (суперкластере), 10x производительность по сравнению с TPU v5p. Оптимизирован для инференса. Развертывание внутри Google Cloud — ноябрь 2025.
Amazon Trainium3: продукт AWS на TSMC 3nm, запущен в декабре 2025 года.
Microsoft Maia 200: собственный ускоритель инференса Azure; пока развертывается параллельно с NVIDIA Rubin.

Ни один из этих продуктов не конкурирует с Rubin по универсальности — они оптимизированы под конкретные задачи конкретного облака. Однако они ограничивают потенциал роста NVIDIA внутри крупнейших облачных провайдеров.

Intel — следующее поколение ускорителей

Gaudi 3 показывал 1,5x ускорение обучения по сравнению с H100 при меньшем энергопотреблении, но в сравнении с Blackwell и Rubin разрыв быстро растет. Intel отменил Falcon Shores и сосредоточился на Jaguar Shores — rack-scale AI-ускорителе на узле Intel 18A с HBM4 и кремниевой фотоникой. Объем производства ожидается во второй половине 2026-го, ряд аналитиков сдвигает реалистичную дату на 2027-й.

Номенклатура будущих продуктов Intel неоднократно менялась. Названия «Jaguar Shores», «Gaudi 4» и «Falcon Shores» в разное время использовались для разных продуктов.

Сравнительная таблица конкурентов

Параметр	NVIDIA Rubin	AMD MI450	Google TPU v7	Intel (след. поколение)
Произв-ть FP4/FP8	50 / ~25 PFLOPS	40 / ~20 PFLOPS	—	—
Память (макс.)	288 ГБ HBM4	432 ГБ HBM4	192 ГБ HBM3e	—
Полоса памяти	22 ТБ/с	19,6 ТБ/с	7,4 ТБ/с	—
Сильная сторона	Экосистема CUDA, скорость инференса, rack-scale	Объем памяти, TCO	Специализир. инференс в GCP	Энергоэфф. (edge)
Слабая сторона	Высокая стоимость, TDP ~2300 Вт/GPU	Экосистема, зрелость ПО	Только внутри GCP	Слабые позиции в training
Доступность	H2 2026	Q3 2026	Развернут (ноябрь 2025)	Ориентировочно конец 2026

Roadmap: Rubin Ultra и дальнейший путь

Vera Rubin Ultra (H2 2027)

Следующее поколение в рамках той же платформенной архитектуры. Заявленные характеристики:

Производительность: 100 петафлопс FP4 — двукратный прирост по сравнению с Rubin.
Память: 1 ТБ HBM4e на GPU.
Конфигурация NVL576: 576 GPU-кристаллов (144 GPU-пакета) в едином NVLink-домене; 15 экзафлопс FP4 (инференс) / 10 экзафлопс (обучение).
Kyber rack: потребление до 600 кВт.

Обновление на апрель 2026: По данным отраслевых источников, оригинальная четырехкристальная компоновка Rubin Ultra была пересмотрена в сторону двухкристальной из-за проблем с выходом годных чипов на упаковке TSMC CoWoS-L и деформации подложки при четырех кристаллах. NVIDIA заявляет, что двухкристальная Rubin Ultra сохранит 3,5-кратное улучшение инференс-производительности на ватт по сравнению с B300.

NVIDIA Feynman (2028+)

Следующее поколение после Rubin Ultra, запланированное на 2028 год. На GTC 2026 NVIDIA подтвердила основные контуры платформы: 3D-стекинг для увеличения плотности вычислений, новый CPU Rosa (Rosalind Franklin), NVLink 8-го поколения, BlueField-5, Spectrum-7, инференс-ускоритель Groq LP40 и кастомную HBM-память. По данным журналистов, компания уже использует GPU Blackwell для ускорения проектирования Feynman. Детальные характеристики производительности публично не раскрывались.

Заключение

Vera Rubin — это семь чипов, работающих сообща, и стойка как единица вычислений. По заявлению NVIDIA, 10-кратное снижение стоимости токена в сравнении с Blackwell. Новая архитектура безопасности на уровне всей стойки. Цифры производительности подтвердит рынок после начала поставок.

Для операторов, проектирующих объекты на горизонте 2026–2028 годов, Vera Rubin задает новые требования к мощности, охлаждению и сетевой архитектуре. 187–230 кВт на стойку при 100% жидкостном охлаждении — не то, что влезает в стандартный дата-центр. Кто закладывает инфраструктуру сейчас, не учитывая эти параметры, получит объект, который устареет еще до открытия.

Поставки серийных систем ожидаются во второй половине 2026 года. Тогда и появятся первые независимые бенчмарки, и можно будет сравнить реальные показатели с заявленными.

FAQ: Часто задаваемые вопросы

Когда начнутся поставки NVIDIA Vera Rubin?

Коммерческие поставки NVL72, NVL8 и дальнейших конфигураций — вторая половина 2026 года. AWS, Google Cloud, Microsoft и Oracle названы в числе первых провайдеров.

В чем принципиальное отличие Vera Rubin от Blackwell?

По заявлению NVIDIA: 5x прирост инференса, 3,5x прирост обучения, 10x снижение стоимости токена, 2,8x рост пропускной способности памяти. Переход на HBM4 и TSMC 3nm. Плюс семь чипов, разработанных как единая система.

Поддерживает ли Vera Rubin обратную совместимость с кодом под Blackwell/Hopper?

Да. Существующий код совместим с CUDA и CUDA-X. Для использования NVFP4 и расширенного Transformer Engine потребуется дополнительная оптимизация.

Что такое NVFP4 и почему это важно?

4-битные числа с плавающей точкой — формат пониженной точности, ставший стандартом для быстрого инференса LLM. При минимальной потере качества генерации увеличивает пропускную способность и снижает потребление памяти. GPU Rubin обеспечивает 50 петафлопс в этом формате.

Для каких рабочих нагрузок оптимизирована Vera Rubin?

Агентный ИИ, reasoning-модели (Chain-of-Thought, o-серия), MoE-модели, обучение LLM, мультимодальные модели, генеративное видео, инференс с ультрадлинным контекстом (через Groq 3 LPX Rack).

Можно ли использовать Vera Rubin в существующих дата-центрах?

187–230 кВт на стойку при 100% жидкостном охлаждении существенно превышает возможности большинства стандартных объектов. NVIDIA рекомендует проектировать под Rubin новые или специально модернизированные дата-центры.

Кто уже подтвердил использование Vera Rubin?

Microsoft Azure, Oracle Cloud Infrastructure, AWS, Google Cloud, CoreWeave, Lambda, Nebius, Nscale, HPE, Dell Technologies.

Чем Vera Rubin отличается от конкурирующего AMD MI450?

Rubin превосходит MI450 по производительности FP4 (50 vs 40 PFLOPS) и зрелости экосистемы. AMD MI450 имеет больший объем памяти HBM4 (432 vs 288 ГБ) и претендует на более низкую TCO. Переход с NVIDIA на AMD требует существенных инвестиций в адаптацию кода.

Когда ожидается Vera Rubin Ultra?

Вторая половина 2027 года. 100 петафлопс FP4 на GPU, 1 ТБ HBM4e, конфигурация NVL576 с 15 эксафлопс инференса.

Рассылка SERVERICT о самом важном!

Мы делимся новостями отрасли, мнениями экспертов, полезными обзорами и обновлениями услуг.

Получайте уведомления от нас — будьте в курсе самого важного!

0 комментариев

Translate »