最近问Rubin减少存储用量的比较多,集中说一下。
Vera Rubin NVL72机柜的内存配置调整,是针对AI服务器机柜中CPU侧系统内存(LPDDR5X SOCAMM模块)的显著下调,以应对供应链瓶颈、降低成本并保障量产交付。
重点:GPU侧高带宽内存(HBM4)容量和核心算力保持不变。
具体调整细节原规划 vs 实际配置:
Rubin NVL72机柜(72颗Rubin GPU + 36颗Vera CPU)CPU侧总DRAM容量从约55TB 下调至约28TB(减少约50%)。具体通过将SOCAMM内存模块从192GB高配版切换为96GB版本实现(每Vera CPU支持8个SOCAMM插槽)。 GPU侧内存不变:每机柜HBM4总容量仍为约20.7TB(每颗Rubin GPU 288GB),聚合带宽约1.6 PB/s,核心训练/推理FLOPS不受影响。 主要原因是供应链瓶颈:HBM4(三星、海力士、美光等供应商)产能与良率双重制约,当前良率仅30-40%(远低于商用要求的>45%)。多供应商策略未能完全缓解,加上产线占用,导致DRAM/LPDDR5X供应紧张且价格高企(约8美元/GB)。英伟达优先保障2026年大规模量产交付节奏。
成本与TCO优化:单机柜BOM成本从约760万美元 降至680万美元(节省80万美元)。GPU每小时拥有成本从4.16美元降至3.90美元(-6.25%),内存成本占比从40%降至30%。这可以显著降低云厂商和AI实验室的资本支出压力,便于更大规模部署。
战略考量方面,我觉得并非单纯的技术降级,而是综合供应链约束+成本控制+交付保障的结果。英伟达正推进HBM4e及更高容量SOCAMM研发,未来可能恢复更高配置。
此调整仅针对即将量产的Rubin平台,不影响当前Blackwell/GB200 NVL72机柜(其内存配置保持原计划)。
我个人认为,这是为了暂时缓解内存短缺对AI服务器部署的制约,同时利好长期供应链稳定(虽短期内存厂商股价承压)。
长远看,AI应用端(包括Agent)的普及,会显著拉升算力需求,单台机柜更便宜是好事,企业会购买更多。