在 CES 2026 上,英伟达正式揭开了 Rubin 平台 的神秘面纱。这不仅仅是又一次硬件迭代,更是英伟达从“芯片公司”全面进化为“系统架构公司”的里程碑。
通过 Rubin GPU、Vera CPU、NVLink 6 交换机、ConnectX-9 网卡、BlueField-4 DPU 以及 Spectrum-6 交换机这六大支柱,英伟达正在定义所谓的 “极致协同设计”(Extreme Co-Design)。

在 2026 年国际消费电子展 (CES) 上,英伟达正式详细发布了 Rubin 平台的全部六款产品:Rubin GPU、Vera CPU、NVLink 6 交换机、ConnectX-9、BlueField-4 和 Spectrum-6。VR NVL72 是英伟达第二代机架级 Oberon 架构的旗舰产品。面对竞争对手在机架级领域的奋起直追,例如第二代 UltraServer 中的 Trainium 3、AMD 的 MI450X Helios 机架式服务器,以及早在 GB200 之前就已实现机架级规模的谷歌 TPU,英伟达凭借其“极致协同设计”的优势予以回应。通过极致协同设计,英伟达将机架级集成提升到了新的高度。机架系统成为一个独立的计算单元,一个分布式加速器,而英伟达则负责该系统的设计。

对于 Vera Rubin 平台,Nvidia 对系统和机架级设计拥有更大的控制权。由于每个组件的性能都达到极限,同时还要兼顾成本效益,机架级集成和组装变得更具挑战性。与 Grace Blackwell 相比,VR NVL72 采用模块化设计,整体性更强,旨在提高集成效率和吞吐量。
英伟达凭借其卓越的协同设计能力,进一步增强了自身竞争力。在英伟达开创性的 AI 服务器系统设计中,它是唯一一家能够提供一流或接近一流芯片产品组合的厂商,涵盖所有主要芯片组件。英伟达提供最佳加速器、最先进的扩展交换机、最佳网卡、顶级以太网交换机以及性能大幅提升的专用 CPU。其他竞争对手均无法提供如此完整的集成芯片产品组合。
以下各节将从芯片层面探讨 Vera Rubin 平台的 6 款芯片产品。然后,我们将从设计角度探讨机架和计算托架从 Grace Blackwell 到 Vera Rubin 的演变,以及对组件(包括线缆、连接器、PCB、散热、机械和电源)的影响。
接下来,我们将讨论 VR NVL72 系统的主要网络,即向上扩展的 NVLink 6 网络和后端横向扩展网络。我们还将探讨受限于超大规模数据中心定制化程度以及组装供应商格局所带来的物流影响。
最后,报告以对 VR NVL72 系统总拥有成本(TCO)的讨论作为结尾,并提供了支持 TCO 分析的物料清单(BoM)和功耗预算估算。付费阅读部分内容还深入探讨了英伟达 Groq IP 的规划。此外,我们还将介绍美光、SK 海力士和三星在 HBM 产能爬坡方面面临的一些挑战。
今天,我们还发布了 VR NVL72 组件物料清单和功耗预算模型 。该模型提供了本文所述 VR NVL72 系统的系统级物料清单和功耗预算分析。这一点至关重要,因为各个供应商及其子组件的份额将决定他们在价值 5000 亿美元的 Rubin 超级计算机项目中是胜是败。下游市场的影响和错位将十分巨大。该模型涵盖以下内容:
Nvidia 计算托盘内容:Strata 模块(含 Rubin GPU、Vera CPU、SOCAMM 内存);BlueField-4;ConnectX-9
NVLink 系统:NVSwitch、NVLink 背板和线缆、相关连接器、主机 CPU 管理模块
液冷部件:冷板、快速接头、歧管
PCB、基板和材料含量: 关键系统板、ABF 基板、CCL 含量
连接器 :Paladin HD2 板对板连接器、Paladin HD2 NVLink 6.0 连接器
电源输送组件 :电源架、母线、电压调节模块 (VRM)、电源输送模块
机械结构 :底盘、装载机构、导轨组件、货架底盘
管理模块 :BMC
网络 :收发器,CX-9

请访问此自助服务门户网站购买该型号产品。如有任何产品相关问题,请联系 [email protected]。
极致协同设计:Rubin 平台下的 6 款硅产品——芯片布局及规格

Rubin 架构的 FP4 和 FP8 高密度浮点运算性能相比 GB200 提升了约 3.5 倍,而 FP16 高密度浮点运算性能的提升则较为温和,约为 1.6 倍,这凸显了 NVIDIA 对 FP4/FP8 作为主要性能提升方向的持续重视。在内存方面,HBM 容量与 GB300 基本持平,而 HBM 带宽则实现了约 2.8 倍的显著提升。总体而言,该架构优先考虑带宽和低精度计算。

Rubin

Rubin 的设计是 Blackwell 的逻辑演进,它采用了 3nm 工艺,并将 I/O 分解为芯片组,同时保持了相同的基本结构,即 2 个光刻胶大小的芯片,每个芯片包含 8 个 HBM 堆叠。35 PFLOPS 的密集 FP4 运算能力比 Blackwell GB200 提高了 3.5 倍,其实现方式如下:
SM 数量从 160 增加到 224
SM 中 Tensor Core 宽度翻倍至 32768 FP4 MAC/时钟
时钟频率从 1.90GHz 提升 25% 至 2.38GHz
此外,英伟达声称,通过升级的第三代 Transformer 引擎(取代了前几代的 2:4 结构化稀疏性 ),FP4 性能可提升高达 50 PFLOPS 。我们将在下文中详细介绍 Rubin 的这一架构特性。
值得注意的是,Tensor 核心宽度翻倍仅适用于 FP4 和 FP8,BF16 和 TF32 则与 Blackwell 架构保持一致,因此性能扩展仅为 Blackwell 的 1.6 倍。这一架构决策反映了 NVIDIA 的理念,即大多数训练和推理工作负载将从 TF32 和 BF16 转向 FP8 和 FP4。
在内存方面,采用 HBM4 意味着每个内存堆栈的总线宽度翻倍,运行速度达到 10.8 GT/s,总带宽达到 22TB/s,是 Blackwell 架构在相同 288GB 容量(与 GB300 相同)下的 2.75 倍。内存带宽相比 GTC 2025 大会上公布的 13TB/s 有了显著提升。为了赶上 AMD MI450 的内存带宽,Nvidia 向 DRAM 供应商提出了更高的 HBM4 引脚速度要求——远高于 JEDEC 规范中规定的 HBM4 速度。
尽管英伟达的目标是 22TB/s,但我们了解到内存供应商在满足英伟达的要求方面面临挑战,因此我们认为首批出货量可能会略低于目标,接近 20TB/s。 我们已经就此对 SK 海力士、三星和美光在 Accelerator 和 HBM 型号用户方面的影响进行了深入探讨。 美光远远落后于三星和海力士,我们认为他们实际上已经无缘 Rubin HBM4 的开发。 我们掌握更多关于 Accelerator 和 HBM 型号的认证和引脚速度的详细信息。
NVLink-C2C 芯片组包含 Vera CPU 连接的 SerDes,带宽翻倍至 1.8TB/s,而芯片另一端的更大的 NVLink 6 芯片组具有 36 个定制的“400G”SerDes 链路,可为所有 72 个 Rubin GPU 提供 2 倍的 NVLink 带宽。
晶体管数量增长了60%,达到3360亿。
鲁宾的著作中一个值得注意的疏漏是未提及稀疏浮点运算(Sparse FLOPs)。在前几代产品中,2:4 结构化稀疏性被用来使浮点运算次数翻倍。然而,由于其僵化的稀疏结构会强制一半数值为零,导致精度损失,因此这种技术的应用非常有限,尤其是在低精度情况下。程序员基本上忽略了结构化稀疏性,因为它没什么用,这也导致了硬件设计的改变。Blackwell Ultra GB300 在保持稀疏 FP4 浮点运算次数不变的情况下,增加了 50% 的密集 FP4 运算能力;而 AMD 的 MI355X 为了节省芯片面积,停止支持 MXFP8、MXFP6 和 MXFP4 格式的结构化稀疏性。
改进后的 Transformer 引擎中 Rubin 的自适应压缩引擎是一项关键特性,它通过在传输过程中动态计算稀疏性并消除数据流中的零值(而非将非零值置零)来重新提升自然稀疏推理的性能,从而在保持模型精度的同时提升性能。这一过程在为 Blackwell 构建的现有模型上自动完成,无需新的编程模型或特定的优化。虽然使用训练后量化或量化感知训练的模型会进行调整以最大限度地提高自适应压缩的加速效果,但并非必须使用这些模型才能利用动态压缩。
这意味着工作负载越稀疏,性能就越接近标称的 50 PFLOPS 峰值性能。因此,NVIDIA 将 50 PFLOPS 定义为 FP4 推理性能,而 35 PFLOPS 则代表密集工作负载的 FP4 训练性能。由于精度得以保持,因此市场团队可以宣称 Rubin 的性能比 GB200 提升了 5 倍,这是将 50 PFLOPS 的动态压缩 FP4 与 10 PFLOPS 的密集 FP4 进行了比较。实际的 GEMM 性能是否能达到 50 PFLOPS 取决于张量中零元素的数量。零元素越多,性能就越接近目标值;零元素越少,加速比就越低。总而言之,由于 Rubin 的自适应稀疏压缩具有自动实现的优势,我们预计其应用将比结构化稀疏压缩更加广泛。
尽管如此,许多机器学习系统工程师仍然怀疑这种新型稀疏性能否有效发挥作用,英伟达宣称的 50 PFLOPS 很可能只是像前几代产品一样的营销噱头。
Rubin 芯片的 TDP 高达 2300W,而 Blackwell 则为 1000-1400W。供应链传闻称,存在两种不同的“SKU”,分别具有不同的功耗和性能配置:Max-P 版本为 2300W,Max-Q 版本为 1800W。然而,这并非不同的硬件 SKU,而是英伟达根据用户工作负载需求提供的两种默认功耗配置。英伟达认为 Max-Q 可提供最佳的每瓦性能。Max-P 可提供最高的绝对性能,但会牺牲一些能效。运行 Max-P 设置会导致机架功耗增加 20%,但性能提升远不足以弥补这 20% 的功耗增加。
这些电源配置文件由软件管理。用户还可以选择任意最大功耗(只要每个 GPU 不超过 2300W),之前的 GPU 也一直如此。一些超大规模数据中心和实验室选择以较低的功耗运行 GPU,以优化每瓦性能,并兼顾电源可用性限制。

Rubin 封装的机械结构也进行了升级,增加了升级版的散热片和加强筋。相比之下,Blackwell B200 和 B300 封装仅有散热片盖。散热片盖能够使封装散发的热量更加均匀,并为封装提供机械支撑,防止其变形。
对于 Rubin 而言,散热盖是一个由两个独立盖子组成的模块。除了散热盖之外,封装结构中还增加了一个加强筋,以提供更强的机械支撑,防止翘曲。散热盖表面还会镀上一层金。这样做的目的是为了防止位于散热盖和冷板之间的液态金属导热材料 TIM2 对其造成腐蚀。
维拉

NVIDIA 在 CPU 方面采取了积极的升级策略,Vera 通过采用 3nm 光罩尺寸的计算芯片,并将内存控制器和 I/O 分离成小芯片,性能比 Grace 提升了一倍。核心数量从 72 个增加到 88 个,芯片上印刷了 91 个核心,以提供冗余以提高良率。这些核心标志着 NVIDIA 定制 ARM CPU 设计的回归,其中“Olympus”核心现在支持 SMT 多线程技术,总共可处理 176 个线程。L3 缓存容量也提升了 40%,达到 162MB。内存总线宽度翻倍至 1024 位,速度提升至 9600MT/s,带宽提升 2.5 倍,最大容量也提升至 1.5TB(配备 8 个 SOCAMM 模块)。连接到 Rubin GPU 的 NVLink-C2C 带宽也翻倍至 1.8TB/s。此外,现在还支持 PCIe 6 和 CXL 3.1。所有这些导致晶体管数量增加 2.2 倍,达到 2270 亿。
NVLink 6 交换机

虽然机架级交换带宽翻了一番,但每个机架的 NVLink 交换芯片数量也翻了一番,达到 36 个,每个交换托架现在可容纳 4 个交换芯片。这意味着新的 NVLink 6 交换芯片拥有与 NVLink 5 交换芯片相同的 28.8T 带宽,端口数量减半,但使用“400G”双向 SerDes 的运行速率却翻了一番。这使得高带宽交换设计能够保持为单芯片,从而降低了设计复杂性。布局与 NVIDIA 之前的交换机相同,两侧用于 I/O,中央逻辑部分为交叉开关,并具备 3.6 TFlop 的 SHARP 网络内计算加速能力。
ConnectX-9

ConnectX-9 在很大程度上是 ConnectX-8 的迭代产品,同样拥有 800G 网络带宽和 48 通道 PCIe6 交换机功能。然而,CX-9 现在支持 800G 以太网,配备 4 个 200G PAM4 SerDes,而 CX-8 仅支持 InfiniBand。对于 Rubin 平台,NVIDIA 将每个 GPU 的网卡数量增加了一倍,以实现 2 倍的横向扩展带宽。
蓝场-4

BlueField-4 的设计与 BlueField-3 有显著不同。NVIDIA 没有像 BlueField-3 那样专门定制计算和网络芯片,而是直接沿用了其大型 Grace CPU 芯片,并将其与 ConnectX-9 芯片封装在一起,打造出一款拥有强大计算能力的 800G DPU。Grace CPU 由 128GB LPDDR5 内存供电,带宽为普通 Grace 的一半。这相当于 BlueField-3 内存容量的四倍。BlueField-4 还可以作为存储控制器使用,每个 Context Memory Storage 系统都包含四个 BF-4 芯片。
光谱-6

Spectrum-6 CPO 虽然并非 Rubin NVL72 机架的一部分,但其双倍基数使其能够支持更大规模的横向扩展集群。该设计保留了 Spectrum-5 的相同特性,主交换芯片周围环绕着 8 个 I/O 芯片。它通过 512 个 200G SerDes 实现 102.4T 的交换带宽。封装上的 32 个 3.2T 光引擎将这些电信号转换为光链路,每个光引擎都配有一个可拆卸的光纤连接器。SN6810 包含一个这样的芯片,而 SN6800 则包含四个,它们复用在一起构成一个 409.6T 的交换机。此外,SN6600 还将推出一个非 CPO 版本,该版本带有可插拔的 OSFP 插槽。我们认为非 CPO 版本将会更常见。
鲁宾·奥伯龙机架:NVL72,而非 NVL144 或 NVL36
自英伟达在 2024 年 GTC 大会上发布 GB200 以来,AI 服务器系统的概念已经从机箱式转向机架式系统。在我们之前的 GB200 文章中 ,我们探讨了英伟达 AI 服务器外形尺寸的演变,从 HGX(每个节点 8 个 GPU)到 Oberon(NVL72 机架式)。虽然 HGX 外形尺寸仍然存在,但英伟达的大部分 Blackwell GPU 都集成在了 Oberon 外形尺寸中。Rubin GPU 也将同时应用于 HGX 和 Oberon 系统。
Blackwell 和 Rubin Oberon 架构的主要区别在于提供给客户的 SKU 数量。由于 Blackwell Oberon 是首个大规模部署的机架级解决方案,其 GB200 NVL72 SKU 的机架功率密度超过 100kW,许多数据中心的基础设施尚不足以支持每个机架 100kW 以上的功率。Nvidia 提供了两种 Blackwell Oberon SKU:GB200 NVL72 和 GB200 NVL36x2。后者是低密度 SKU,专为那些基础设施不足以应对单个高密度机架散热的客户而设计。我们在 GB200 的文章中讨论了这两种外形尺寸之间的区别 。
与 Blackwell 不同,Rubin 仅提供 VR NVL72 型号。其设置与 GB200/GB300 NVL72 非常相似。每个 VR NVL72 系统包含:
72 个 Rubin GPU 封装
36 个 Vera CPU
36 个 NVLink 6 交换机 ASIC

顺便一提,VR NVL72 最初被称为 VR NVL144,这是因为在 GTC 2025 上, Jensen 数学将 GPU 数量定义为系统中 GPU 计算芯片的数量(每个封装包含 2 个计算芯片,每个 Oberon 机架有 72 个 Rubin 封装,共计 144 个计算芯片)。为了体现系统中 72 个 Rubin GPU 封装,命名在 12 月下旬改回了 VR NVL72。这恰好发生在 CES 2026 之前,在 CES 2026 上,VR NVL72 的名称得到了正式确认。
CPX 外形尺寸

尽管英伟达最初计划将 CPX 加速器集成到 VR NVL72 机架中,但目前的进展表明,CPX 将仅作为独立机架提供,正如我们在介绍英伟达 CPX 的文章中详细介绍的那样 。回顾一下我们在之前的 CPX 文章中提到的 Rubin 时代的系统规划,英伟达最初考虑了三种 VR NVL72 配置:
VR NVL72(常规版): 标准型 Oberon VR NVL72,不带 CPX 功能
VR NVL72 CPX(集成式):Rubin GPU 和 Rubin CPX 位于同一计算托架内
VR NVL72 CPX(双机架):Rubin CPX 部署在与 VR NVL72 机架并排的独立机架中。
独立/专用机架的部署方式从根本上改变了部署策略。双机架方案允许超大规模数据中心独立扩展预填充和解码容量,优化数据中心的电力消耗,并减少系统级故障域(相比于紧密耦合的机架)。更重要的是,它正式实现了推理预填充(计算密集型)和解码(带宽密集型)之间的架构分离。
Rubin CPX 最初的设计理念是基于 GDDR7 的加速器,并针对预填充进行了优化,其设计基于以下三个关键考虑因素:
预填充主要受限于浮点运算能力,而不是带宽,这使得 HBM 的重要性有所降低。
HBM 增加的带宽在预填充中没有得到充分利用。
GDDR7 的每 GB 成本显著降低,并且无需 2.5D 封装。
然而,Nvidia 开始探索配备 HBM 的变体用于预填充,要么通过修改 CPX 配置,要么通过较低内存规格(例如使用 HBM3E)的 Rubin 部署专门用于预填充,我们在去年 12 月初的加速器和 HBM 模型中就注意到了这一点 。
我们认为,这种转变很大程度上是由内存经济格局的演变所驱动的。 传统 DRAM 的价格已经大幅上涨: 随着 DDR 价格的上涨,HBM 的相对溢价被压缩,因为长期合同的价格更加固定,这缩小了基于 GDDR 的 CPX 和低规格 HBM 配置之间的成本差距,从而抵消了 GDDR 在性能方面带来的许多成本优势。虽然内存带宽对于预填充来说不如解码那么重要,但它仍然是必要的。
计算机托架重新设计
VR NVL72 的主要改进之一在于计算托架。此次计算托架的重新设计旨在简化组装,特别是消除计算托架上的线缆,因为线缆一直是 GB200/300 组装过程中的主要故障点。正如 Jensen 在 CES 2026 上所说,无线缆设计将计算托架的组装时间从 2 小时缩短至 5 分钟。为了实现这一目标,VR NVL72 计算托架采用了模块化设计,各个模块之间通过板对板连接器连接。

要了解 VR NVL72 的计算托盘,我们首先必须了解构成 VR NVL72 计算托盘的 6 个模块:
Strata 模块 x 2
兰花模块 x4
计算托盘中板 x 1
电源传输模块 x 1
BlueField-4 模块 x 1
系统管理模块 x 1
我们在 Nvidia VR NVL72 BoM 和功耗预算模型中分解了这些组件的成本以及所有子组件的成本 。
地层


VR NVL72 的 Strata 模块位于机箱后部,相当于 GB200/300 的 Bianca 板。它内置两颗 Rubin GPU 和一颗 Vera CPU。与 Bianca 不同的是,Vera 的 LPDDR5X 内存通过 SOCAMM 模块插槽连接。Vera 左右两侧各有 8 个 SOCAMM 插槽。提供两种不同容量的 SOCAMM 模块,分别为 192GB 和 128GB,每个 Vera 的最大内存容量为 1534GB,最小内存容量为 1024GB。由于 CX-9 被移至机箱前部,Strata 模块上的 Connect-X 网卡夹层模块也被移除。在无线缆设计下,所有线缆接口也被移除,取而代之的是位于模块底部的 Paladin HD2 板对板连接器。另一方面,与 GB200 和 GB300 相同的 Paladin HD2 背板连接器组也以相同的方式放置在模块背面,通过 NVLink 背板连接到 NVLink 6 交换机。
兰花

Orchid 模块包含两个 ConnectX-9 网卡、两个 800G 收发器笼和一个 E1.S 模块插槽。机箱前部安装有四个 Orchid 模块。两个 Orchid 模块上下堆叠,分别占据机箱前部左侧和右侧的空间。模块末端有一个 Paladin HD2 板对板连接器,可与中板上的连接器对接。Orchid 模块纤薄修长,使 PCIe 6 信号能够从中板传输到机箱前部的 CX-9 网卡。
中平面

中板作为桥接器,连接两个 Strata 模块和机箱前部的模块,用于传输 PCIe 信号。中板模块垂直放置在机箱中央,两侧均配备 Paladin HD2 板对板连接器。Strata 模块连接到中板的一侧,而 Orchid 模块、BlueField-4 模块、PDB 模块和管理模块则连接到另一侧。
蓝场-4

BlueField-4 DPU 位于机箱前部中央,介于左侧 Orchid 模块和管理模块之间。如前所述,BlueField-4 由一颗 Grace CPU 和一块 CX-9 网卡组成。该模块还板载 128GB LPDDR5x 内存、512GB 板载可插拔 SSD 以及一块来自 Aspeed 的集成式 AST2600 BMC。在 VR NVL72 计算托架的参考设计中,BlueField-4 作为 DPU,可提供高达 800Gb/s 的前端网络能力。然而,与 BlueField-3 一样,BlueField-4 也只会被少数客户采用,例如 CoreWeave 和其他一些定制能力有限的小型 Neocloud 客户。对于大多数超大规模数据中心而言,BlueField-4 模块将被他们自主研发的前端网络模块或更经济的 CX-9 网卡所取代。
说到 BlueField-4,就不得不提一下 Jensen 今年早些时候在 CES 上重点介绍的新产品:ICMS,即推理上下文内存存储——我们听说这个平台可能会在 GTC 上更名为“CMX”。ICMS(或 CMX)引入了第三个完全独立的网络,专门用于上下文内存。CMX 是一个专用的键值缓存架构。随着长上下文推理将上下文窗口推向数百万个令牌,以及代理并发量在用户和服务层面不断扩展,当前用于存储键值缓存的内存层次结构开始显得捉襟见肘。
键值缓存 (KV 缓存) 的容量随序列长度线性增长,随工作负载并行度呈倍数增长,很快就会超出任何单层内存的设计容量。GPU HBM 虽然在带宽和延迟方面无可匹敌,但其自身容量不足以存储 KV 缓存,尤其是在轮次间或工具调用之间日益常见的长序列查询。主机 DRAM 可以扩展容量,但仍然受限于节点,总占用空间有限,最终容量也有限。与此同时,传统的共享存储——其设计目标是持久性而非延迟——具有更高的访问时间和功耗开销,因此不适合参与解码循环。
正如我们在 1 月中旬的内存模型报告中所述 ,Nvidia 的 ICMS 在本地 SSD (G3) 和共享存储 (G4) 之间插入了一个新的 G3.5 层,专门针对临时性、可重计算的键值缓存进行了优化。ICMS 需要一个专用的网络层,该网络层专为键值流量而设计。在此架构中,凡是使用网络的地方,都会将其配置为上下文内存网络——与一般数据传输隔离,并针对可预测的解码延迟进行了优化。
问题在于,业界对流向 ICMS/CMX 的 SSD 数量估计过高。我们在内存模型和代币经济模型中进行了数学推导 。
BlueField-4 将成为这第三套网络的核心芯片。它位于存储阵列上,能够以线速终止 NVMe-oF 和 RDMA 流量,并独立于主机 CPU 和 GPU 管理键值缓存 (KV) 的移动。BlueField-4 配备 2×400G SerDes 链路,提供 800Gb/s 的带宽,并集成了 Grace CPU 和 LPDDR,可作为分布式上下文内存架构的控制器。在首选的 DGX 式配置中,每个托架上的单个 BlueField-4 可为四个 Rubin 处理器提供服务,其 DPU 专用于处理 KV 缓存流量,不与通用存储 I/O 共享。
新的 CMX/ICMS 生态系统很可能包括 Weka、DDN、戴尔科技、NetApp、VAST Data 等领先的存储提供商。
功率传输
电源模块位于 BlueField-4 模块上方。该模块通过内部母线电缆接收 50V 电源。然后,电流通过模块化电源适配器降至 12V。之后,12V 电流通过较小的内部母线输送至 Orchid 模块、BlueField-4 模块和管理模块。
在 VR NVL72 组件物料清单和电源预算模型中 ,我们详细列出了 BlueField、Strada 板和机架其余组件的电源供应内容。
系统管理
管理模块由多个同类别的较小管理模块组成。这些模块占据了 BlueField-4 模块和右侧 Orchid 模块之间的狭长空间。这些管理模块如下:
系统管理模块(SMM)
可信平台模块(TPM)
数据中心安全控制模块(DC-SCM)
这些模块为计算托架提供管理安全功能。超大规模数据中心通常拥有自主研发的管理模块设计。因此,不同终端客户的管理模块可能有所不同。除了 BlueField-4 模块之外,电源模块和管理模块是英伟达允许定制的计算托架组件中仅有的另外两个。一些终端客户正在考虑将管理模块集成到电源模块中。然而,这些模块必须符合英伟达提供的外形尺寸,才能安装到计算托架中板上的指定接口中。
计算托盘拓扑结构
VR NVL72 的计算托架拓扑结构与 GB200 和 GB300 大致相似。与 Grace Blackwell 相比,主要有三个区别:GPU 和 ConnectX 网卡之间的连接、与本地 NVMe 存储的连接以及 BlueField-4 和 ConnectX-9 之间的连接。


首先,GPU 与 ConnectX 网卡之间的连接方式经历了从 GB200 到 GB300,再到 Vera Rubin 的演变。在 GB200 中,GPU 无法直接访问 ConnectX-7。它通过 C2C 连接连接到 Grace CPU,然后 Grace CPU 通过 PCIe 5 接口与 ConnectX-7 通信。在 GB300 中,Nvidia 引入了直接连接到 ConnectX-8 的网卡,使得 GB300 GPU 可以直接与 ConnectX-8 网卡通信,而无需经过 Grace CPU。
本质上,这意味着 ConnectX-8 拥有两个主机:Grace CPU 和 B300 GPU。这降低了后端网络的延迟。然而,对于 VR NVL72,Rubin GPU 和 ConnectX-9 之间的直接连接恢复到了与 GB200 相同的设计,因为 Rubin 没有足够的 PCIe 带宽来支持两个 ConnectX-9。Rubin 通过 C2C 链路连接到 Vera,然后 Vera 通过 PCIe6 通道连接到 ConnectX-9。
其次,Rubin 的本地 NVMe 存储已迁移到与 Grace Blackwell 不同的位置。此前,Rubin 的本地 NVMe 存储由 BlueField-3 管理。而对于 VR NVL72,其本地 NVMe 存储则位于由 ConnectX-9 管理的 Orchid 模块上。

最后,BlueField-4 DPU 能够控制 8 个 ConnectX-9 后端网卡,从而实现对前端南北向网络和后端高速东西向网络的统一管理。该系统被称为高级安全可信资源架构 (Astra),因此可以减轻主机 CPU 的资源配置和监控负载。唯一的不足之处在于 BlueField-4 价格昂贵,因此我们预计大多数超大规模客户会选择部署他们自己的内部 DPU 解决方案。我们将在后续章节中详细讨论定制化方案。
布莱克威尔的进化
VR NVL72 计算托架中的所有模块虽然不完全相同,但都与 GB200/300 的计算托架中的模块相同。唯一的区别在于中板模块,这是一个新引入的组件,旨在消除计算托架内部的线缆。此外,机箱前部的模块(子模块)比 Blackwell 中的同类模块要长得多,以便通过 PCB 将中板信号连接到前部 I/O 端口。在以下章节中,我们将讨论计算托架的无线缆设计、散热设计的变化以及机械设计的变化。
计算机托架无线设计
如上所述,VR NVL72 计算托架采用无电缆设计理念。正如我们在去年 8 月的 PCB 超级周期核心研究报告以及近期关于安费诺人工智能内容的核心研究报告中所述 ,这种设计有两个原因。首先,架空电缆存在多个故障点,因为它们在组装过程中很容易损坏。其次,VR NVL72 的高密度设计使得电缆布线空间有限。
用板对板连接器替换内部电缆
对于 GB200/300 机箱而言,由 Amphenol 独家提供的最重要的线缆是位于计算托架内的 DensiLink OverPass 线缆套装。该线缆提供 CX-7/8 网卡与 OSFP 插槽之间的以太网连接。然而,该线缆在组装过程中极易被刮伤或损坏端接,从而造成多个故障点。此外,还有一些其他低端 PCIe 线缆(MCIO 和 SlimSAS)也存在同样的故障点。这些线缆涉及众多其他供应商,使得采购和供应商管理更加复杂。鉴于线缆的脆弱性,工人在将线缆安装到高度紧凑的机箱内时必须格外小心,这延长了组装时间。
尽管无电缆设计最初看起来对安费诺不利,但实际上却是一项优势。Strata 模块和子模块之间的信号仍然需要物理互连。在这种架构中,这些信号通过安费诺的 PaladinHD2 板对板连接器从 Strata 板输出。然后,信号通过位于机箱中央的 PCB 中板进行布线。在 PCB 中板的另一侧,子模块通过另一组 Paladin HD2 B2B 连接器连接到 PCB 中板。在我们的 VR NVL72 组件物料清单和电源预算模型中,我们详细列出了安费诺在 Vera Rubin NVL72 中计算托架的组件构成。我们在关于安费诺 AI 组件的文章中也对此进行了更详细的讨论。

迁移 ConnectX-9
为了适应这种无电缆设计,原本位于 Strata 模块上的 CX-9 网卡被移到了 Orchid 模块上(从机箱的后半部分移到了前半部分),如下图所示。


对于 GB200/GB300,GPU/CPU 与 CX-7/8 之间的 PCIe 信号距离比 CX-7/8 与 OSFP 插槽之间的以太网/InfiniBand 信号距离更短。此前,由于需要将 200G 以太网/InfiniBand 信号从计算托架后半部分的网卡传输到计算托架前部的 OSFP 插槽,而 200Gbit/s(单向)信号在 PCB 上的损耗过高,因此必须使用飞线传输。
但现在网卡更靠近 OSFP 插槽,低速 PCIe Gen6 信号(每通道 64Gbit/s 单向)需要传输更长的距离。由于 PCIe Gen6 的信号完整性优于高速 200G 以太网/InfiniBand 信号,因此通过延长 PCIe Gen6 信号的传输距离,信号可以跨越 PCB 板传输。
PCB 与架空电缆
然而,要将 PCIe Gen6 信号从 Strata 模块传输到 Orchid 模块的前端,跨越约 500 毫米的 PCB 距离,仍然是一个挑战。除了使用高质量的 SerDes 之外,升级 PCB 材料仍然可以确保良好的信号完整性。
首先,我们必须了解为什么高速信号在 PCB 板上的性能不如在飞线电缆上。随着 SerDes 速率的提高,高速通道会越来越受到 PCB 走线、过孔、介质材料和导体粗糙度等因素引入的插入损耗的限制。插入损耗是指信号在互连通道中传输时损失的信号功率。

导致 PCB 通道插入损耗的三大主要机制是趋肤效应和铜表面粗糙度引起的导体损耗、层压板吸收引起的介电损耗以及过孔和层变化等不连续性引起的几何损耗。

导体损耗主要由铜表面粗糙度引起。当信号沿 PCB 中的铜线传输时,由于铜的电阻,能量会损耗。在高频情况下,信号会聚集在铜线表面,这种现象称为趋肤效应。除了铜的固有电阻外,如果表面粗糙,电流将无法沿均匀路径流动,从而产生更大的电阻和损耗。
介电损耗是由介电材料的能量吸收特性引起的。介电材料,例如树脂和玻璃纤维布,为 PCB 走线提供绝缘和机械加固功能。在高频下,高速信号并非简单地通过铜线传输,而是以电磁波的形式传播,电场会延伸到介电材料中。随着信号的传播,介电材料会吸收一部分能量并以热量的形式耗散,从而导致插入损耗。介电损耗与频率成正比,因此介电损耗是长距离 PCB 走线信号性能的主要限制因素。
几何损耗描述的是由 PCB 走线突变结构引起的插入损耗。实际的 PCB 通道包含许多突变结构,例如过孔和层交换。这些突变结构就像高速公路上的颠簸,信号可能会反射回来并被中断,从而增加插入损耗。
影响信号性能的另一个因素是串扰。随着每个 GPU 的 I/O 数量增加,PCB 上的线路密度也随之增加。串扰是指铜线走线过于靠近,导致一条线路的信号影响相邻线路的信号。有些铜线也用于供电。当电源线路与信号线路过于接近时,电源线路中的噪声也会干扰信号。
总之,插入损耗与信号频率成正比,高速信号在 PCB 上的插入损耗比在飞线传输中更大。因此,随着传统 CPU 服务器升级到更高的信号频率(例如升级到新一代 PCIe),CPU 服务器设计中越来越多地采用飞线传输来补偿 PCB 上的插入损耗。另一种解决方案是升级 PCB 材料,但飞线传输更具成本效益,并且对于传统服务器应用而言仍然可行。
鉴于人工智能服务器更高的密度和制造复杂性,VR NVL72 的设计转向了无电缆方案。提高制造良率和缩短组装时间所节省的成本,足以抵消升级 PCB 材料带来的更高成本。必须尽可能降低所有导致 PCB 插入损耗的因素,因此 VR NVL72 的 PCB 材料升级势在必行。 我们在此按组件列出成本明细 。
PCB 材料升级和面积增长
与 GB200/GB300 相比,VR NVL72 的 PCB 组件价值将显著增长。推动这一增长的两大主要因素是材料的显著升级以及高端 PCB 面积和层数的显著增加。我们的 VR NVL72 组件物料清单(BOM)和功耗预算模型提供了 VR NVL72 与 GB200/GB300 相比,高端 CCL 和 PCB 组件的价值明细。

在材料方面,CCL 含量从 M7 升级到 M8/M9 推动了材料的升级。主计算板和网络板上的铜箔全部升级为 HVLP4。为了降低介电损耗,必须升级为玻璃纤维布,但是否需要石英布(Q 玻璃)仍存在争议。下面我们将讨论材料升级以及采用每种材料背后的关键考虑因素。
下表显示了 Blackwell 与 Rubin 中每块主板的 CCL 分类和 PCB 规格。

CCL 材料的分类取决于其在给定频率下的介电常数(Dk)和损耗因子(Df)。Dk 和 Df 值越低,插入损耗越小。目前常用的分类标准以松下 Megtron 系列为基准,因为该系列一直是行业标准。当人们将 CCL 描述为 M7 级时,通常意味着它与松下 Megtron 7 的 Dk 和 Df 规格相同。

Rubin 芯片中信号层的铜箔材质由 HVLP2 升级为 HVLP4。如前所述,由于趋肤效应,表面更光滑的铜箔意味着更低的插入损耗。HVLP 是超低剖面铜箔的等级划分。HVLP 等级越高,表面粗糙度越低。
与 Blackwell 架构相比,Strata 架构在供电层方面增加了更多层,这些层大多是供电层,用于满足 GPU 更高的供电需求。通过增加更多专用供电层,供电层和信号层得以分离,从而降低了串扰。供电层的铜箔也更厚,以更好地隔离流经其中的电流。
玻璃纤维布的升级旨在降低复合导电层(CCL)的介电常数。除了玻璃纤维布之外,树脂也是影响介电常数的关键因素。为了达到理想的介电常数,复合导电层制造商对其中两种介电材料的配方各有不同。目前,关于复合导电层规格的争论主要集中在是否采用石英布(Q 玻璃)上。
石英布是取代玻璃纤维布作为增强层的新一代材料,其介电常数更低。除了更低的介电常数外,石英布还具有强度更高、耐温性更强、热膨胀系数更低等优点。但另一方面,其成本比最高等级的玻璃纤维布高出数倍,且在 PCB 制造过程中加工难度更大,导致良率更低。
在 VR NVL72 芯片中,Orchid 板和中板最初采用石英布,以尽可能降低 PCIe Gen 6 信号在这两块板上的插入损耗,从而实现最长距离的传输。然而,考虑到石英布的成本以及加工难度,NVIDIA 目前正在探索降级为玻璃纤维布的方案。最终决定将取决于降级后的玻璃纤维布的信号性能。

除了材料升级之外,PCB 含量价值的另一个驱动因素是高端 PCB 面积覆盖率的提高。在 Grace Blackwell 机箱中,只有采用 M7 级 CCL 的 Bianca 板和采用 M8 级 CCL 的 NVSwitch 板使用了高端材料,导致计算托架的前半部分没有高端 PCB 板覆盖。对于 VR NVL72 机箱,Orchid 板和中板增加了计算托架中高端 PCB 板的面积,覆盖了机箱的前半部分。由于 Strata 板比 Bianca 板更大,加上计算托架中额外的外围板,我们估计高端 PCB 板的面积从 GB300 到 VR NVL72 增加了约 2.3 倍。如表格所示,Orchid 板是 GB300 和 VR NVL72 机架之间高端 PCB 总面积差异的主要贡献者。
我们的 VR NVL72 组件物料清单和电源预算模型提供了 VR NVL72 与 GB200/GB300 相比的高端 CCL 和 PCB 内容的美元内容细分。
计算托盘:散热
VR NVL72 将液冷技术提升到了新的高度。VR NVL72 计算托架采用 100% 液冷散热,而 GB200 和 GB300 计算托架则采用 85% 液冷和 15% 风冷的混合散热方式。因此,计算托架中移除了风扇,并增加了冷板的覆盖面积,从而更好地将热量从机箱前部排出。机箱中部设有一个内部歧管,用于将冷却液分配到各个模块,并收集排出的冷却液。计算托架内的每个模块都配备一个冷板模块。每个冷板模块都通过 MQD(NVIDIA 为计算托架内紧凑型应用而设计的小型快速断开连接规范标准)连接到内部歧管。

冷却液从机箱左后侧的 UQD 接口进入计算托架。然后,冷却液通过管道进入内部歧管,并在此分配到所有模块。冷却液吸收各个模块产生的热量后,再次进入内部歧管。最后,冷却液从机箱右后侧的 UQD 接口排出计算托架。

VR NVL72 的冷板也进行了多项升级。每个 Strata 模块都将配备一个独立的冷板模块,覆盖整个 Strata 板,包括两颗 Rubin GPU、一颗 Vera CPU、SOCAMM 模块以及各种 VRM 组件。Rubin GPU 的冷板升级为“微通道冷板”(MCCP)。本质上,冷板上通道之间的间距从 150 微米减小到 100 微米。这增加了表面积,提高了冷板的散热能力。此外,与 Rubin GPU 接触的表面还镀有一层金。这样做是为了防止液态金属铟 TIM2 对铜的腐蚀。

除了 Strata 模块之外,机箱前部的模块也将配备冷板模块。每个 Orchid 模块都将配备一个冷板模块,用于覆盖 CX-9、E1.S SSD、收发器笼以及各种 VRM。由于两个 Orchid 模块堆叠在 1U 机箱内,因此冷板和电路板的总高度将小于 0.5U。每对 Orchid 模块仅共用来自歧管的一对快速连接器 (QD)。另有一组歧管将冷却液分配到每对 Orchid 模块的顶部和底部冷板上。我们的 VR NVL72 组件物料清单 (BOM) 和功耗预算模型包含了所有散热组件的内容,包括冷板模块、歧管和快速连接器。

以往,冷板是在 L10 组装层(即机箱内各组件就位阶段)进行组装的。鉴于模块化设计,冷板需要与模块本身更紧密地集成。因此,冷板将在 PCBA 工艺完成后,于 L6 组装层进行安装。这提高了组装效率,因为 L10 的组装步骤简化为将完成的模块插入相应的连接器和快速断开连接器。
计算托盘:电源传输
在计算托架层,50VDC 电源通过机箱背面的母线夹进入计算托架。然后,电源通过内部母线电缆传输到机箱中部。从内部母线电缆出发,电源路径分为三个目的地。第一条和第二条路径分别通往左侧和右侧的 Strata 板,内部母线电缆直接为 Strata 板提供 50VDC 电源。第三条路径通往机箱前部的电源分配模块。内部母线电缆将 50VDC 电源输送到一个母线装置,该装置穿过 PCB 中板下方,连接到 PCB 中板另一侧的电源分配板(PDB)。这与 Grace Blackwell 不同,Grace Blackwell 的 50VDC 电源直接输送到 PDB。然后,PDB 为计算托架中的所有电路板提供 12VDC 电源。

50VDC 电源通过 Strata 板两侧的 50V 电源接口之一输入到 Strata 板。50VDC 电源由 Strata 板底部的 IBC 模块降压至 12VDC。然后,12VDC 电源由 VRM 降压至 1VDC,再输入到 Rubin GPU 和 Vera CPU。Strata 板直接接收 50VDC 电源,而 Grace Blackwell 的 Bianca 板则从 PDB 接收 12VDC 电源。由于 Strata 板的功耗约为 4800W(相当于半个普通服务器机架的 TDP),而 Bianca 板的功耗为 3000W,因此必须以更高的电压为 Strata 板供电。将 50VDC 到 12VDC 的转换点靠近 Strata 板的好处是降低电流并提高传输效率。由于功率损耗与电流呈二次方关系,50V 下 96 安培的电流比 12V 下 400 安培的电流功率损耗低 17 倍。
我们有 VR NVL72 组件物料清单和功率预算模型中包含的所有各种 VRM 的所有功率半导体的体积和平均售价 。
英伟达的圣诞礼物:GB300 和 B300——推理、亚马逊、内存、供应链

Vera 和 Rubin 之间的功率共享机制依然存在,这项功能沿用自 GB300,我们在上文中已介绍过。它能够更高效地进行电源规划,将 4800W 的功率分配给 GPU 和 CPU。在 GPU 负载较高时,每个 GPU 将获得 2300W 的功率,剩余的 200W 则分配给 CPU。当 GPU 负载下降时,Vera 可以动态提升功率,从而最大限度地减少 GPU 的空闲时间,同时避免功率过剩。
机箱前部的模块(CX-9、BlueField-4 和管理模块)由 PDB 供电,每个模块均由 PDB 提供 12VDC 电源。PDB 的电源由 50VDC 降至 12VDC,然后通过铜母线将 12VDC 电源输送至相邻模块。CX-9 的电源连接器位于模块顶部的 Paladin HD2 附近。
计算托盘:机械式
VR NVL72 计算托架的机械组件比 Grace Blackwell 的略微复杂一些。机箱前部有一个机械结构,将前部分隔成三个区域:左右两个区域容纳 Orchid 模块,中间区域容纳 BlueField-4、电源和管理模块。每个模块还配有一个小型金属底盘。该机械结构提供了一个简单的导向机构,引导模块与中板和内部歧管进行盲插对接。

中平面和内部歧管作为一个模块一起发货。该模块的机械设计如上图所示。图中突出显示的机械部件用作模块的加载机构。这些加载机构通过对模块施加一定的力,将其锁定到位,从而确保模块与 Paladin 连接器和 MQD 牢固连接。
机架级基础设施:散热
除了重新设计的无风扇前置机箱和全液冷计算托架之外,Vera Rubin 散热架构讨论中最引人注目的是 Jensen 关于冷却液/水温偏高以及使用冷水机的评论。对于许多人(更广泛地说,对于整个市场而言!)来说,Vera Rubin 能够在 45°C 的进水温度下运行,从而可能避免使用机械压缩机式冷水机的说法,令大多数散热供应商感到震惊。而我们认为这只是现有趋势的延续。
Vera Rubin 能够在 45°C 的进水温度下运行,而 Blackwell 已经能够在高于 40°C 的进水温度下运行(例如 Supermicro 的 DLC-2 系统)。联想和 HPE 等主要系统厂商自 2025 年初以来一直在讨论在 45°C 下运行的全液冷架构。2024 年,HPE 发布了一款基于全液冷的工业冷却系统,类似的方案在高性能计算 (HPC) 领域早已得到应用。联想在 2025 年 OCP 峰会上讨论了其下一代 Neptune 液冷解决方案,该方案采用全液冷设计,同样使用 45°C 的水。

以施耐德电气于 2025 年 9 月发布的 GB300 参考设计 111 为例。在该参考设计中,数据中心采用双回路架构:一个冷水回路专用于空气冷却(为风扇壁供冷),另一个独立的高温回路专用于液体冷却。在液体侧,TCS 将冷却剂以约 40°C 的温度循环至冷板,并以更高的温度返回;同时,CDU 将热量传递给设施水回路,进入 CDU 的水温约为 37°C。

因此,45℃的冷却能力并非全新技术。即便具备这种能力,大多数采用 Blackwell 系统的运营商仍然将水温设计在 20-30℃之间。粗略估计,目前 Blackwell 系统的进水温度接近室温,出水温度则在 40-50℃范围内。只有少数运营商,例如 Firmus,在气候条件允许的情况下,将冷水机组从循环回路中移除(即使是像 GB200 这样的系统),转而采用高度优化的节能器设计。避免机械冷却中的压缩步骤可以显著提高能源效率。
那么,鉴于 Vera Rubin 的功耗和发热量大约是 Blackwell 的两倍,Nvidia 是如何给这个“发热怪兽”散热的呢?在回答这个问题之前,值得考虑另一个因素。较高的进气温度虽然可以提高能源效率,但随着进气温度接近最高出气温度(系统上限温度),温差会越来越小,从而增加散热难度。温差越小,就需要更大的水/冷却液流量才能带走相同的热量。在 Blackwell 参考架构中,上限温度约为 65°C(例如,参见 Vertiv GB200 NVL72 参考设计)。

尽管 NVIDIA 最初并未正式公布 Vera Rubin 液冷系统的完整规格,但我们相信该平台将支持最高 65℃的冷却液回流温度。这与 NVIDIA 的温水运行范围相符,虽然温差的具体影响取决于所选的供水设定点和流量控制策略,但我们可以预期温差会略微收窄。压力范围预计与 GB200 相同,最大工作压力为 72 psig(5 bar),最小爆破压力为 217 psig(15 bar),与 OCP 的 MGX 机架级液冷规格一致。

实际上,冷却遵循简单的物理原理。要冷却系统,必须在回路中输送足够量的水/冷却剂,并确保其温度和压力合适。如果要提高制冷单元 (CDU) 的冷却能力,需要在控制压力的前提下增加流量,这意味着流量大约需要增加 2.0 到 2.5 倍,具体倍数取决于操作人员实际设定的出口温度。
英伟达指出,Vera Rubin 散热系统在不增加 CDU 压头、不增加冷却复杂性或成本的情况下,提高了液体流量,并实现了比 Blackwell 散热系统近一倍的散热性能。英伟达通过优化整个液压路径实现了这一目标。我们预计,更大的快速接头将支持更高的流量,同时还需要升级歧管和管道。如下图所示,厂商路线图表明,至少对于下一代机架而言,2 英寸快速接头应该足以满足更高的流量需求,同时保持在压力和流速限制范围内。

采购和制冷供应商的影响
更新后的冷却架构和翻倍的功率密度对供应商的主要影响体现在冷配电单元 (CDU) 和机架与 CDU 的比例上。目前,一个 CDU 大约可以支持 10 个 GB200 机架。由于每个机架产生的热量大约是原来的两倍,除非 CDU 容量增加,否则该比例必须下降,这意味着需要更多 CDU 或更高容量的 CDU。我们认为大多数大型运营商预计将保持每个 CDU 约 10 个机架的比例。随着机架功率密度的提高,这意味着需要更大容量的 CDU。目前,行内 CDU 的冷却能力最高约为 2 MW,但我们预计未来设施的 CDU 将达到 3-6 MW。台达目前在 CDU 专业领域处于领先地位,施耐德电气、Vertiv 和 nVent 也位居前列。富士康和广达则在系统集成商领域占据主导地位。

从液冷+气冷系统向纯液冷系统的转变,加上更高的流速和更大的冷却能力,将需要对整个冷却系统进行改造。L2A CDU 中使用的风扇和散热器的重要性会随着时间的推移而降低。尽管如此,在当前的升级周期中,L2A 仍可能保持相当可观的市场份额,因为此时部署速度比全面优化更为重要,但从长远来看,L2L 的发展趋势显然更为有利。高密度 L2L 系统也需要对冷却系统的大部分组件进行重新设计。这包括更新的歧管、更大的快速接头(例如 Colder Products Company、Danfoss、Staubli 和 Parker Hannifin 的产品)、镀金冷板(例如 AVC、Delta、Boyd、CoolIT 和 Auras 的产品),以及至关重要的、能够输送所需水量的更大功率的水泵。水泵的尺寸与功率密度和需要去除的热量直接相关。即使是像 Allegro MicroSystems 这样的泵用电机和驱动部件制造商,其前景也可能发生变化,因为对更大功率电机、更多电机或两者兼而有之的需求将会增加。总之,TCS 回路温度升高可能会增加空白空间冷却供应商的每兆瓦成本。量子点(QD)、歧管和冷板将从中受益最多,而恒流单元(CDU)也会受益,但程度较轻。
对于 FWS 布局而言,最主要的启示在于其可能实现无冷水机组设计。虽然我们已在面向核心研究和数据中心模型订阅用户的单独说明中探讨了这一争议,但我们重申,这并非完全颠覆性的。一些运营商已经在采用人工智能优化设计的 Blackwell 系统中运行无冷水机组,而另一些运营商则选择保留冷水机组,以实现工作负载的灵活性、混合机房兼容性、冗余性和可靠性。从长远来看,我们预计人工智能优化系统将降低对冷水机组的需求,其应用将从风冷式冷水机组转向干式冷却器或绝热塔。我们目前估计,风冷式冷水机组的成本约为每兆瓦 50 万美元,而干式冷却器或绝热塔的成本约为每兆瓦 20 万美元。SPX Technologies、BAC 和 Evapco 等公司可能会从中受益,而 Johnson Controls、Carrier 和 Trane 则可能面临挑战。尽管如此,我们预计这种效率/灵活性之间的权衡将在中期内持续存在,并且不认为冷水机组的需求会在一夜之间骤减。 请参阅我们的工业模型了解更多详情。
机架级基础设施:电源输送
在 2024 年发布的 GB200 文章中 ,我们讨论了电源供应方式从节点级 PSU(电源单元)到集中式机架级电源架的演变。随着 VR NVL72 机架的 TDP 从 GB200 和 GB300 的 120kW-140kW 提升至 180kW-220kW,电源供应基础设施再次升级。在下文中,我们将讨论参考设计的机架级电源供应基础设施以及 VR NVL72 的计算托架级电源供应。
自 GB200 部署以来,电力输送基础设施演进的主题一直是传输效率和电力稳定性。超大规模数据中心正在开发电力输送基础设施,以应对高密度 AI 服务器机架带来的挑战,其路线图设定为未来几年内每个机架 1MW 的容量。因此,高压直流(HVDC)电源机架、电池备用单元(BBU)、电容备用单元(CBU)、液冷母线和固态变压器(SST)等设备正在研发中,以提高传输效率和电力稳定性。这些设备将由客户根据其专有的基础设施设计进行部署。 关于这方面的更多细节,我们在本报告中详细探讨了 AI 训练对电网带来的挑战。

对于 VR NVL72 参考设计,机架级供电基础设施包含四个 110kW 电源架。VR NVL72 系统的 TDP 最高可达 220kW(以 2300W Rubin TDP SKU 为例)。采用四个 110kW 电源架的设计方案为 N+1 冗余。每个 110kW 电源架高 3U,包含六个 18.3kW 的电源单元 (PSU),每个 PSU 内部都集成了电容。每个电源架通过两条 100A 电源线接收三相 415VAC-480VAC 电源。电源架将 415VAC-480VAC 电源降压至 50VDC 并输送至母线。值得注意的是,VR NVL72 的母线额定电流超过 5000A,远高于 Grace Blackwell 的 2900A。鉴于极高的电流以及机架内没有风扇,母线必须采用液冷散热。

对于超大规模客户,他们可以选择部署独立式电源机架,采用低压直流 (LVDC) 或高压直流 (HVDC) 供电。以下我们提供了 VR NVL72 电源机架部署的两种可能方案。

首先,VR NVL72 机架配备一个高压直流 (HVDC) 电源架,其工作电压为 800VDC(Nvidia 规格)或 +/-400VDC(OCP 规格)。由于 VR NVL72 机架的母线电压仍为 50V,而计算托架的输入电压也仅为 50V,因此电源架提供的 800VDC 电压无法直接输送到母线。VR NVL72 机架中仍然需要配备 DC-DC 电源架。如下图所示,DC-DC 电源架会将电流电压从 800VDC 降至 50VDC。

其次,一些客户,例如 Meta,可能会考虑将网络交换机机架与 BBU 和 CBU 机架集成,以提高效率并削减峰值负载。这样可以容纳更多原本无法装入 GPU 机架的 CBU 和 BBU 容量。BBU/CBU 和交换机机架将通过 50V 水平母线连接到 GPU 机架。Meta 将此称为高功率机架,并在 OCP 大会上进行了讨论。
我们的 VR NVL72 组件物料清单和功耗预算模型中有更详细的功耗和架构细节 。
网络:NVLink 6、Rubin 横向扩展
NVIDIA 的代际创新是渐进式的,而非革命性的。随着 GPU 的纵向扩展和横向扩展带宽大约每 18 个月翻一番,NVIDIA 机架中的铜缆基础设施也在不断创新,以适应更高带宽的工作负载。纵向扩展的网络基础设施最终将采用光纤技术来构建更大规模的网络,但这又是另一个话题了。
下表展示了纵向扩展和横向扩展网络速度的演变。Vera Rubin 使用的 NVLink 6 通过在相同数量的铜缆上实现双向信令,使 NVLink 带宽翻倍,相当于每个 NVLink 提供 4 条 200G 通道。更多详情将在后续章节中介绍。

让我们逐步了解 Rubin 网络的关键特性以及可能围绕 Rubin 纵向扩展和横向扩展网络构建的架构。
用于扩展的双向 SerDes
Vera Rubin NVL72 的 NVLink 6 相比 GB300 NVL72 的 NVLink 5,每个逻辑 GPU 的带宽翻了一番,这得益于其在铜背板上使用了同步双向 SerDes,而非提高调制速率或波特率。NVLink 5 的每条电通道带宽为 224G,而 NVLink 6.0 的每条电通道带宽为 448G。每条电通道都是一对差分线 (DP),由两根导体组成,分别承载幅度相等、极性相反的信号。

这就产生了一个工程问题,即如何确保导线两端都能接收到清晰的信号,因为通过同一根铜线沿相反方向发送的两个信号会叠加形成一个与预期发送信号不同的复合信号。
在光学领域,正如我们去年底发表的 TPUv7 文章中所述,可以通过将光环形器集成到收发器中来实现双向互连 。环形器的工作原理是将入站和出站信号路由到不同的路径上 ,从而确保光电二极管接收器处的信号互不重叠。然而,在铜缆领域,双向互连则要复杂得多。由于铜缆是线性传输线,入站和出站信号会在接收器处通过叠加效应相互叠加,因此无法使用环形器。铜线两端的接收器需要一种机制来分离本地的发射信号和接收信号。
解决此问题的办法是在导线的两端使用混合器。如果没有混合器,本地接收端就会出现自干扰,因为本地发送端和本地接收端都通过同一根导线传输信号:
因此,为了正确消除回波,必须在本地接收端生成本地发送端的反向副本:
下图展示了这种动态变化:

虽然双向信号传输技术目前用于短距离(小于 5 毫米)芯片间互连,但 NVIDIA 的这项技术尤其突出,它已将这项技术扩展到通过铜背板进行更远距离的传输,传输距离至少达到 1 米。
双向信令的挑战在于回声消除必须精确校准,否则本地发送副本生成过程中哪怕出现轻微延迟都可能导致链路故障。然而,如果 NVIDIA 继续使用 200G SerDes,带宽翻倍意味着背板上的铜缆数量也要翻倍,这出于多种原因来说都是一项艰巨的任务。
Blackwell 一代产品在背板上塞入约五千根铜缆,导致大规模应用中出现不容忽视的可靠性故障模式。若要在保持常规 200G SerDes 架构的同时将带宽翻倍,则需要将背板上的铜缆数量翻倍至一万根,这只会进一步增加制造复杂性和系统故障的可能性。

NVIDIA 也可以选择部署更宽的机架,就像 AMD 的 Helios 机架一样 ,但这可能会影响 PCB 上的信号完整性,因为电信号将不得不经过更长的路径。
扩展网络 – NVLink 6
NVIDIA 的扩展网络采用了铜背板上的双向 SerDes 技术。对于 Vera Rubin NVL72 而言,扩展网络依然采用轨道优化设计,在扩展域内,每个 GPU 和交换机 ASIC 之间都实现了全连接。
去年,我们讨论了 NVIDIA 的 GB200 扩展架构,该架构在一个机架中集成了 18 个 NVLink 5 交换芯片,用于 NVL72

统


GB200 硬件架构 - 组件供应链及物料清单
尽管 VR NVL72 系统中使用的 NVLink 6 交换机与 NVLink 5 交换机一样,每个交换机都能提供相同的 28.8T 聚合带宽,但 NVLink 6 交换机的 SerDes 速度是 NVLink 5 交换机的两倍,而 DP 数量相同。因此,为了提供 NVLink 6 所需的两倍聚合扩展带宽,Vera Rubin NVL72 机架中的 NVLink 交换机数量将是 GB200 机架的两倍。这意味着每个机架包含 9 个交换机托架,每个托架上放置 4 个 NVLink 交换机芯片,即每个机架共 36 个 NVLink 交换机芯片。
每个 VR NVL72 交换机托架包含四个 NVLink 6 交换机 ASIC 和一个系统管理模块。与首款为 GB200 平台推出的 Oberon NVLink 5 交换机相比,Rubin NVLink 6 交换机托架的设计更加简洁,也更加无缝,因为 Rubin NVLink 6 交换机托架无需使用飞线。因此,所有 NVLink 信号都将直接在 PCB 板上传输。
NVLink 6 交换板采用液冷散热,并由一个独立的冷板模块覆盖。系统管理模块 (SMM) 连接到 NVSwitch 托架,该模块自带 CPU,并作为交换托架的主机。交换托架与 SMM 之间使用飞线连接,这也是整个 Vera Rubin NVL72 系统中唯一需要的飞线连接。鉴于 PCIe 连接速度较低,且 NVLink 交换托架包含的模块相对较少,因此交换托架的组装应该不会太复杂。

下图展示了 NVLink 6 信号在托盘中的传输路径。每条绿线代表九个 NVLink 6 的 400G 逻辑端口,或 18 条 200G 的 TX/RX 通道。由于每条通道仅使用一个双向 SerDes 的 DP,因此任意连接器与任意交换机之间共有 18 个 DP,每个连接器总共有 72 个 DP,与上一代 NVLink 5 交换机托盘相同。

如前所述,高速信号需要更优质的 PCB 材料,尤其是 NVLink 6,由于采用双向信号传输,其插入损耗容忍度更低。PaladinHD2 连接器和 NVLink 交换机之间的通道数量也增加了 PCB 设计的复杂性。因此,NVLink 6 交换机板的 PCB 升级为 32 层,采用 M8+级 CCL 材料——最低为 LDK2 玻璃纤维布,或可选石英纤维布。
我们在 VR NVL72 组件物料清单和电源预算模型中提供了有关开关托盘和各种组件的更多详细信息 。
从整体来看,背板铜缆用于将 NVLink 交换机托架连接到 VR NVL72 系统的 GPU 托架。尽管带宽翻倍(采用双向 SerDes),但从 GB300 背板到 Vera Rubin NVL72 背板,所需的线缆数量并未改变。连接器数量以及每个连接器的 DP 数量也与 Grace Blackwell NVL72 和 VR NVL72 相同。


VR NVL72 系统采用铜缆连接的 GPU 和横向扩展交换机,而 VR HGX 系统则采用由八个 Rubin GPU 和四个 NVLink 交换芯片组成的服务器。NVL72 和 HGX 部署的第二个显著区别在于,前者每个 GPU 的横向扩展带宽为 1.6T,而后者每个 GPU 的横向扩展带宽仅为 800G。为什么所有 Rubin 200 部署都使用 CX-9 网卡,即使某些部署的单个 GPU 横向扩展带宽只有一半?
HGX Rubin NVL8 服务器由八个 800G CX-9 网卡组成——每个 GPU 一个网卡——这意味着其横向扩展带宽与前代产品 HGX B300 服务器相比没有提升。而 Vera Rubin NVL72 则将每个 GPU 的横向扩展带宽提升至 1.6T,但这并非通过增加每个网卡的带宽来实现的。实际上,每个 Rubin 芯片上的“1.6T 网卡”由两个 800G CX-9 网卡组成,并通过 PCIe Gen 6.0 通道连接到 Vera CPU。
VR NVL72 上的每个计算托架都配备八个 800G CX-9 网卡,但 OSFP 插槽的数量有两种可能:一种是每个 GPU 配备一个 1.6T OSFP 插槽,每个计算托架共 4 个;另一种是每个 GPU 配备两个 800G OSFP 插槽,每个计算托架共 8 个。我们认为后一种方案更为常见,并将作为本文后续章节讨论横向扩展网络架构的基础。

在横向扩展 InfiniBand 网络中连接 GPU
总体而言,Vera Rubin NVL72 的横向扩展部署主要有三种类型。第一种是基于 InfiniBand 的集群,采用 NVIDIA Quantum 系列交换机;第二种是基于 NVIDIA 以太网的集群,采用 Spectrum 系列交换机;第三种是非 NVIDIA 以太网,例如基于 Tomahawk、Cisco Silicon One 或 Teralynx 的以太网交换机。一些超大规模数据中心部署的以太网集群会使用 AEC(自动互连控制器)来实现网卡到 TOR 以及交换机之间的连接,而其他仅使用光互连的以太网集群通常会采用多平面多轨网络架构。然而,Vera Rubin NVL72 部署最值得注意的是,它是首款在横向扩展后端网络中采用共封装光模块 (CPO) 的 NVIDIA GPU。
虽然既有基于 InfiniBand 的集群,也有基于 Spectrum-X 的集群,但基于 InfiniBand 的 Quantum X800-34XX 系列交换机在云原生架构(Neocloud)中比在超大规模数据中心(hyperscaler)中更受欢迎。InfiniBand 有两种部署方式:第一种是采用可插拔光模块的 Quantum X800-Q3400,第二种是基于 CPO 的 Quantum X800-Q3450 交换机,它使用共封装光引擎 (OE) 而非可插拔收发器。
从逻辑上讲,Quantum X800-Q3400 是一款多平面交换机,它将 4 个 Quantum-3 ASIC 集成到一个交换机盒中,不过我们将在本文后面深入探讨这种等效性。这种多平面“拓扑”结构已被抽象化,对于网络工程师而言,Q3400 就是一个拥有 144 个端口的单交换机——或者说是一个“小型”交换机。

因此,HGX Rubin NVL8 服务器的 InfiniBand 架构实际上是一个单平面 8 轨网络,由每个 HGX Rubin NVL8 GPU 到叶交换机的一条 800G 上行链路组成。

然而,对于 Vera Rubin NVL72 部署,每个 GPU 配备两个 800G OSFP 插槽,总带宽为 1.6T。每个 GPU 拥有两个 800G 逻辑端口的优势在于,它允许在无需复杂光纤管理的情况下进行多平面网络部署——只需将一个逻辑 GPU 分成两路,分别连接到两个不同的叶交换机即可。因此,与仅使用一个 1.6T 逻辑端口相比,使用两个 800G 逻辑端口可以构建更大的网络集群。事实上,正如我们在之前的多篇文章(例如 NVIDIA 的《光学怪物》 和 Microsoft 的《AI 战略解构》 中的网络部分)中所解释的那样 ,这种关系由一个简单的公式决定,该公式计算的是 L 层交换机在 k 个端口的情况下可以支持的最大主机数量:
举例来说,考虑两个假设的 VR NVL 部署方案,分别具有 1.6T 和 800G 逻辑端口。一个具有一个 1.6T 逻辑端口的单平面三层网络最大只能支持 93,312 个 GPU,或者说:
所谓一个 1.6T 逻辑端口,是指连接到每个 GPU 的两个 800G OSFP 笼连接到叶层的单个双端口 1.6T 收发器,因为这两个 800G 端口实际上执行了一个 1.6T 端口的功能——因此称为“逻辑”端口。

为了突破 93,312 个 GPU 的最大集群规模限制,可以部署双平面网络,其中两个支持 GPU 的 800G OSFP 交换机分别连接到不同网络方案上的独立叶交换机。这样,您可以构建如下图所示的 186,624 个 GPU 的集群,甚至可以扩展到 746,496 个 GPU 的集群规模。

我们认为,具有两个交换平面的第二个集群很可能成为 Vera Rubin NVL72 InfiniBand 部署中更普遍的参考架构。
除了风冷式 X800-Q3400 交换机之外,NVIDIA 还将提供 CPO 版本 X800-Q3450,该版本同样包含 144 个 800G 端口。如前所述,这两款交换机的独特之处在于,每个交换机盒都包含四个 28.8T 的 Quantum-3 交换 ASIC,每个交换机盒的总交换容量为 115.2T。当与 VR NVL72 服务器配合使用时,叶层网卡的信号会被分成四路(每路 200G),分别发送到交换机盒内的每个 ASIC。这种配置在逻辑上等同于四平面网络架构。

基于以太网的集群部署
尽管 InfiniBand 一直是 NVIDIA 先前芯片(如 H100 和 GB200)中更流行的网络架构,但 NVIDIA 正在积极推广基于 Spectrum Ethernet 的网络,并推出了各种交换机 SKU:
SN6600,一款 102.4T 液冷交换机;
SN6800 是一款 4 ASIC、2048 基数 409.6T 多平面 CPO 交换机,提供 512 个 800G 端口;
SN6810 是一款高基数 102.4T CPO 交换机,另有三种部署选项:512 个 200G 端口、256 个 400G 端口和 128 个 800G 端口。
对于 SN6600 交换机,横向扩展参考架构是一个 8 平面网络,其中每个 GPU 通过八个扇区分别连接到八个不同的平面。这与使用 SN6810 交换机的 8 平面横向扩展网络的参考架构类似。

我们认为,拥有 512 个 800G 端口的 SN6800 交换机对 Neocloud 来说极具吸引力,因为它简化了部署。与 X800-Q3400 横向扩展网络类似,SN6800 横向扩展网络也可以由两个交换平面组成,但 SN6800 能够实现更大的横向扩展规模。
下图展示了这种网络的可能结构——尽管图中仅显示了两个平面中的一个,读者可以从图中每个 GPU 仅显示一个 800G 端口这一事实推断出来。另请注意,每个 SN6800 交换机盒由四个 ASIC 组成,每个 ASIC 都有自己的交换平面,我们将在本文后面详细介绍。

对于一个 512 端口的交换机,我们可以通过两层交换机连接多达 131,072 个 GPU,或者通过三层交换机连接多达 33,554,432 个 GPU。
对于大规模集群部署而言,CPO 交换机(例如 SN6800)能为 Coreweave 和 Lambda 等 Neocloud 带来哪些优势?
正如我们近期关于共封装光器件的深度文章中所讨论的, 首要原因是,通过减少收发器组件的数量,可以显著节省功耗。如果我们比较一个 800G DR4 光收发器(16-17W)的功耗与光引擎 (OE) 和外部光源 (ELS) 模块在横向扩展网络中提供等效 800G 带宽所需的功耗,我们会发现光收发器的功耗平均降低了约 70%。换算一下,这相当于在一个三层 HGX Rubin NVL8 集群中,网络设备总功耗降低了 10%。然而,由于服务器的功耗预算占据主导地位,这种网络设备功耗的降低幅度相对较小,仅占集群总功耗的约 1%。

第二个优势在于成本的降低,这主要得益于几乎完全省去了收发器。如果考虑的是 NVIDIA LinkX 收发器,其价格通常远高于同类通用产品,那么价格降低的空间就更大。在横向扩展领域,比较采用和不采用基于 CPO 交换机的三层网络的总网络成本,我们发现收发器成本平均降低了约 75%。然而,与上述节能效果类似,考虑到整个集群的成本,这种成本节省带来的显著影响并不算大。

我们在 CPO 书评中更详细地概述了这些计算,并更深入地讨论了这个主题 。
提升整体网络可靠性是另一个引人注目的优势。收发器可能存在不可靠性,大型集群中必然会出现持续的链路抖动。Meta 在 ECOC 会议上发表的研究显示,在超过 1500 万 400G 端口设备小时数(相当于在实验室中对 15 台 CPO 交换机进行 11 个月的测试)的情况下,可靠性表现良好。这是一个令人鼓舞的开端,但我们认为,随着更多现场测试部署的开展,这一优势还能得到进一步增强。
我们想提及的最后一个有利于采用 CPO 技术的因素是,Nvidia 的部分 CPO 交换机 SKU 集成了光纤交换功能,可以简化多平面网络架构的安装和维护。例如,SN6800 采用多平面配置,包含四个交换机 ASIC,并通过集成的光纤交换功能连接到各个端口,可提供 409.6T 的聚合带宽;而 SN6810 使用一个交换机 ASIC,但没有集成光纤交换功能,可提供 102.4T 的聚合带宽。
但首先,我们将解释为什么我们认为多层网络架构将会长期存在,这算是一个重要的前言。
集群规模超过 10 万个 GPU 的大规模集群部署通常采用多平面网络架构,因为当前一代交换机的单平面网络架构没有足够的逻辑端口来支持更大的网络,除非采用 3 层或更多层的大量交换机层。
回顾上文,采用 Q3400-X800 交换机构建的 Vera Rubin NVL72 集群,每个 GPU 配备 1.6T 逻辑端口,其扩展能力无法超过 93,312 个 GPU 的最大集群规模。即使未来交换机每台交换机的最大交换容量翻倍,每个 GPU 的带宽预计也会翻倍,这意味着集群网络中的有效逻辑端口数量不太可能改变。
这意味着大规模 GPU 集群的部署仍将需要多平面网络架构。但需要注意的是,多平面网络架构并不受规模限制,我们也看到 NVIDIA 参考架构部署了 GPU 数量远低于 10 万的多个多平面集群。
在使用 SN6600 交换机而非 CPO 交换机的多平面网络架构中,每个 GPU 通过光纤切换器连接到多个交换机。这要求客户在交换机外部部署切换器、配线架和笨重的八爪鱼式线缆,从而增加了安装和维护的复杂性。
英伟达的部分 CPO SKU(例如 SN6800 和 Q3450)在交换机盒内集成了光纤交换功能,每个光引擎都连接到不同的逻辑端口。因此,它们能够提供更高的聚合带宽,分别为 409.6T 和 115.2T,而基于单个交换机 ASIC 的交换机盒则无法达到这一水平。

对于 SN6800 CPO 交换机,尽管负责将电信号转换为光信号的带宽引擎从 1.6T 扩展到 3.2T,是 SN6600 交换机的两倍,但 SN6800 交换机盒内的每个 3.2T OE 都被分成四个 800G 逻辑端口,这些端口在交换机盒内部呈扇形分布,并通过光纤连接器从前面板输出。这使得单个 1.6T GPU 可以扇形分布到两个独立的交换平面。实际上,SN6800 交换机盒由四个 ASIC 组成,这与 X800-Q3400 交换机盒类似。

随着每个 GPU 的带宽持续扩展到 3.2T,不难想象一个使用 SN6800 交换机的 4 平面网络,其中每个 3.2T GPU 被分成四路,分别连接到四个不同的交换机,每条链路的带宽为 800G。
事实上,如果您还没有注意到的话——本文前面解释的 X800-Q3400 交换机(非 CPO)与 CPO 交换机之间存在很强的相似性,因为它们都支持高基数、多平面网络架构,同时将复杂的布线封装在机箱内,从而为客户节省了电缆管理的麻烦。
在 NVIDIA 生态系统之外,主要的交换机 ASIC 芯片厂商是博通(Broadcom),它将生产 Tomahawk 6 和 Tomahawk 6 CPO ASIC 芯片,以及思科(Cisco),该公司最近发布了 G300 102.4T ASIC 芯片。超大规模后端网络部署有两种类型:
利用完整的 512 交换基数的 8 平面“扁平”网络;

NIC 端采用 1.6T OSFP 笼式单平面网络。

来源:SemiAnalysis AI 网络模型
对于 Meta 而言,我们认为其 VR NVL72 部署将仅包含非调度交换矩阵 (NSF) 集群,每个数据中心都将使用基于 Tomahawk 6 的 Minipack-4 OCP 机架式 102.4T 交换机构建集群。Meta 将使用光模块连接集群内的所有交换机,但一旦 1.6T AEC 在市场上广泛普及,它将使用 1.6T AEC 来实现网卡到 TOR 的连接。我们预计 1.6T AEC 的普及将在 2026 年下半年实现。

问题在于,102.4T Minipack-4 交换机可能无法及时交付,以满足 Vera Rubin NVL72 机架部署的需求。如果出现这种情况,部分 NSF 集群将改用 51.2T Minipack-3 交换机。这意味着 AEC 内部需要使用变速转换器,将网卡端的 200G/通道 SerDes 速度转换为交换机端的 100G/通道 SerDes 速度。
不过,Meta 并非唯一一家在其 VR200 部署中使用 1.6T AEC 的超大规模数据中心运营商。我们认为 xAI 将在叶层、脊层和核心层使用 1.6T AEC 来实现网卡到 TOR 以及交换机到交换机的连接。这将构建一个单平面网络,取代交换机上的大部分 1.6T 收发器——这将为 Credo 带来巨大的定价优势。
超大规模定制和组装物流
定制
对于 GB300,虽然参考设计采用四块 ConnectX-8 网卡作为后端网络,一块 Bluefield-3 网卡作为前端网络,但大多数超大规模数据中心都有自己的设计和替代的网络配置,尤其是在 Bluefield-3 网卡方面。除了网络配置外,电源模块、本地 NVMe 存储和管理模块也因客户而异,高度定制化。
例如,在某些机架中,亚马逊甚至在许多情况下都在 GB300 中部署了 ConnectX-8。此外,大多数超大规模数据中心运营商都选择部署自研的 DPU 而非 Bluefield-3 作为前端网络。GB300 的电源模块和管理模块也高度定制化,因为每个客户对这些模块的偏好各不相同。因此,GB300 的前半部分具有高度可定制性,每个超大规模数据中心运营商的设计都存在显著差异。

对于 VR NVL72,虽然仍可进行一定程度的定制,但其外形尺寸的限制更多。鉴于 VR NVL72 的模块化和无线设计,机箱前部的定制模块必须与英伟达参考设计的外形尺寸相匹配。可定制的模块包括供电模块、Bluefield-4 模块和管理模块。我们预计大多数超大规模数据中心客户会采用他们自主研发的 DSP,而不是 Bluefield-4。由于外形尺寸的限制,超大规模数据中心正在重新设计其自主研发的 DPU 的电路板布局和模块外形尺寸,使其与 Bluefield-4 相匹配。对于供电模块和管理模块,一些客户也在考虑将它们组合使用。亚马逊确实有适用于 VR NVL72 的 JBOK / Nitro Box 网卡版本。
装配自动化和物流
在 2026 年国际消费电子展 (CES) 上,Jensen 提到,得益于精简的无线设计和自动化组装流程,从 Blackwell 到 Rubin,计算托架的组装时间已从 2 小时大幅缩短至 5 分钟。目前,只有三家 L10 级计算托架组装合作伙伴具备 Rubin 平台的自动化能力,分别是富士康、广达和纬创。

在 L6 层,即板级 PCBA 环节,纬创和富士康是 Blackwell 和 Rubin 的主要供应商。在 L10 层,由于 Blackwell 从英伟达采购 Bianca 主板销售给客户,因此其计算托架的供应商众多。而对于 Rubin,只有三家供应商具备 Rubin 计算托架的自动化生产能力。规模较小的 ODM 或 OEM 厂商可以选择委托上述三家自动化供应商生产计算托架,也可以选择自行组装,无需自动化。虽然效率不如自动化,但考虑到 Blackwell 计算托架采用无缝模块化设计,自行组装应该比自动化组装要容易得多。在 L11 层,各个 ODM/OEM 厂商将计算托架组装到机架中。
VR NVL72 总拥有成本:物料清单和功率预算分析
VRNVL72 组件物料清单和功率预算模型提供了机架系统的物料清单和功率预算的详细分析。

按 GPU 单价计算,VR NVL72 的成本更高,比 GB300 高出约 45%,比 MI4XX 高出约 14-15%(考虑到服务器的 GPU 单价更高)。这导致其总体拥有成本(TCO)更高。例如,VR NVL 72 超大规模数据中心 Arista 的 GPU 单价为每小时 3.28 美元,而 MI4XX 超大规模数据中心的 GPU 单价为每小时 2.86 美元(基于 4 年的使用寿命)。我们的 TCO 模型基于 4 年的使用寿命来计算每小时的 GPU 单价,以反映保守的商业案例,但大多数新云和超大规模数据中心会使用 5-6 年的折旧期,我们认为最好使用此折旧期来查看息税前利润率(EBIT)。我们首选的衡量标准是项目内部收益率(IRR),它与所选的折旧期无关。
然而,英伟达 VR SOCAMM 方案的一大优势在于,英伟达直接采购内存,这使得他们能够与内存供应商协商长期协议、批量优惠条款,以及最重要的 VIP 定价。我们认为,正如我们在 AI 服务器末日报告中所述 ,这将保护终端客户免受内存成本飙升的影响,这也再次印证了英伟达作为人工智能领域的“中央银行”,如何有效地为所有客户对冲 DRAM 价格风险。
相比之下,AMD 受 DRAM 价格上涨的影响更大,因为它拥有大约两倍于 NVIDIA 的 DRAM 容量,每个机架约 55 TB LPDDR5 和 55 TB DDR5。对于 AMD 的 Helios 机架式系统,AMD 负责销售 GPU/主板并采购 LPDDR5 内存,但并不采购用于机架计算托架的 DDR5 DRAM;DDR5 内存由机架组装商/ODM 厂商采购和集成。这使得 AMD 机架的买家面临更大的风险,因为 AMD 只能通过长期合同对冲 LPDDR5 部分的风险,而 DDR5 部分则完全暴露在风险之中。DRAM 容量翻倍也几乎使整体风险敞口翻倍。
Helios 内存成本更有可能由组装商转嫁或重新定价,因此在内存升级周期中涨幅更大。因此,我们假设 VR 和 GB 内存的价格涨幅低于下文所述的 MI4XX。我们的 MI400 机架假设反映了 AMD LPDDR 的价格为 8.70 美元/GB,而 Nvidia 的价格为 6.77 美元/GB,其中包含了批量折扣结构(市场合同价格为 10.63 美元/GB),但同时也反映了批量经济效益不如 Nvidia。
我们的 AI 内存模型预计 LPDDR5 和 DDR5 合约价格在 2026 年第二季度及以后将大幅上涨,我们预计服务器总资本支出将进一步上调。
NVIDIA 的 2300W 配置代表 Max-P 配置,而效率优化的 Max-Q 配置则运行在 1800W。NVIDIA 声称,无论采用哪种配置,两者都能达到相同的峰值频率,从而实现其宣称的 50 PFLOPS FP4 性能。虽然底层硬件相同,但总拥有成本 (TCO) 的差异在于不同的功耗水平带来的运行成本。
下面我们将分享服务器、存储、网络等方面的详细成本数据,以及英伟达计划如何利用 Groq。
评论区