
1 月 10 日消息,科技媒体 Tom's Hardware 于今日(1 月 10 日)发布专题文章,指出在 CES 2026 的媒体交流环节中,面对业界关于“采用低成本内存以压缩硬件开支”的讨论,英伟达 CEO 黄仁勋明确回应:“芯片销售是一次性交易,而软件工程则是一项贯穿产品生命周期的持续投入。”
他进一步指出,AI 领域已迈入以“Token 经济学”为衡量基准的新阶段,关键效能指标正转向“单位功耗(每瓦)与单位成本(每美元)所能产出的 Token 数量”。
英伟达始终坚守统一内存架构与标准化软件栈策略,尽管初期硬件投入相对更高,却有效规避了生态割裂风险。换言之,一旦英伟达对底层软件栈完成一次优化升级,所有部署该架构的全球 AI 计算中心均可即时受益,从而在长期运营中显著降低总体拥有成本(TCO)。
关于产业演进态势,黄仁勋分享了一项重要观察:当前开源大模型已承担起全球约 25% 的 Token 生成任务。这一超出预期的快速增长,正加速推动 AI 应用从集中式超大规模云平台,向企业级本地化集群广泛渗透。
在技术细节层面,黄仁勋重点介绍了 Vera Rubin 平台所实现的模块化革新。相较此前 Grace Blackwell 架构下整机架停机检修的局限,Rubin 平台采用可热插拔托盘结构,允许在系统持续运行状态下,直接替换 NVLink 等核心互联组件,真正达成“边运行、边修复”。
据该博文披露,此类设计不仅大幅削减运维开销,更彻底重塑了硬件交付效率:单个计算节点的现场组装耗时,由原先平均 2 小时骤降至仅需 5 分钟。 同时,Rubin 平台取消了传统复杂的线缆布设,并将散热方案由 80% 液冷全面升级为 100% 全液冷,进一步强化系统稳定性与可用性。
黄仁勋特别强调,供电系统的动态响应能力,已成为当前算力规模扩张的核心制约因素。 现代 AI 工作负载(尤其是推理场景)常引发剧烈瞬态功耗波动,电流起伏幅度可达 25%,迫使数据中心预留大量冗余电力资源以应对峰值压力。
Rubin 平台通过深度整合的机架级电子控制系统,在内部实现了对功率尖峰的主动平抑——即便单颗 GPU 的热设计功耗(TDP)高达 1800W,对外呈现的电网负载曲线依然高度平稳。该机制使基础设施运营商得以摆脱过度冗余配置,最大限度逼近电力容量的满载利用。










