迟到 15 分钟，黄仁勋炸翻 GTC 2026！万亿营收目标，十年算力翻四千万倍

圣何塞的 GTC 2026 会场，早已不是一场普通的技术发布会，而是全球 AI 行业的年度朝圣。

450 家企业赞助、1000 场技术分会、2000 位演讲者、110 台机器人，当穿着标志性黑色皮衣的黄仁勋，比预定时间迟到 15 分钟走上舞台，全场积蓄已久的掌声与欢呼声瞬间爆发。

这一次，站在 AI 宇宙中心的 “皮衣老黄”，有了一个全新的称号 ——Token 之王。

一小时情怀铺垫，炸出万亿营收王炸

和往年直奔芯片发布的节奏不同，这一次，黄仁勋花了整整一个小时，带着全场观众回溯了英伟达的 25 年：从 25 年前改变游戏行业的 GeForce 显卡，到 20 年前开启通用计算时代的 CUDA，再到 10 年前重构渲染工业的 RTX 技术，一路讲到如今的云计算生态，以及爆火全球的 OpenClaw 与 Token 经济。

所有的铺垫，都指向同一个核心：AI 的进化，从感知到生成，从推理到执行，每一步都在生成更多 Token，消耗更多算力。而英伟达，就是这个时代最大的 “算力供应商”，更是 AI 时代的 “Token 工厂缔造者”。

当全场的情绪被铺垫到顶点，黄仁勋抛出了整场发布会最重磅的数字：英伟达到 2027 年，营收预计至少达到 1 万亿美元。

“去年的 GTC 上，我告诉大家，我们手握 5000 亿美元的高确信需求。今年，站在同一个舞台上，这个数字变成了 1 万亿美元，覆盖了 Blackwell 和 Rubin 到 2027 年的全部订单。” 黄仁勋的语气无比笃定，“而且我可以确定，实际的市场需求，只会比这个数字更高。”

话音未落，现场的欢呼再次响起，而远在美股市场的英伟达股价，也应声冲高。

Token 工厂经济学：全行业 CEO 必看的一张图

如果说万亿营收是结果，那黄仁勋在发布会上反复强调的 “Token 工厂经济学”，就是英伟达给全行业定下的商业底层逻辑。

“这张图，是全球所有 CEO 都要仔仔细细研究的一张图。” 黄仁勋口中的这张图，纵轴是 Token 吞吐量（每瓦算力能产出多少 Token），横轴是 Token 速率（每秒能生成多少 Token）。

他用最直白的话，给 AI 生意算了一笔账：

吞吐量，就是你的 Token 工厂产能，直接决定了你的生产成本；
速率，代表了 AI 的 “聪明程度”，模型越大、上下文越长、推理越深，速率就越低，但单个 Token 的商业价值就越高。

基于这张图，黄仁勋直接把 AI 推理服务，拆解成了一套完整的分层商业模型：

免费层：高吞吐、低速率，核心用来获客；
中间层：3-6 美元 / 百万 Token，服务海量普通用户；
高级层：45 美元 / 百万 Token，满足大模型深度推理需求；
顶级层：150 美元 / 百万 Token，承接超长研究任务、关键路径实时响应等高价值场景。

而决定这场 Token 工厂战争胜负的核心，只有一个：每瓦性能。

“一座数据中心的功率，是无法突破的物理约束。一座 1GW 的 AI 工厂，永远不可能变成 2GW。” 黄仁勋一语道破本质，“在固定的功率上限下，谁的每瓦 Token 产出更高，谁的 Token 成本就更低，谁就能在这场战争里赢到最后。”

去年，行业分析机构 Semi Analysis 做了史上最大规模的 AI 推理基准测试，结果显示：Grace Blackwell NVLink 72 的每瓦 Token 吞吐量，比上一代 Hopper H200 高出了 50 倍。而黄仁勋在发布会上，只保守地说了 35 倍。

面对外界 “留手” 的质疑，黄仁勋笑着承认：“没错，我就是故意的，实际性能就是 50 倍。”

Vera Rubin：十年算力四千万倍，重新定义超级计算机

这份底气，来自于英伟达拿出的下一代计算平台 ——Vera Rubin。

“去年我讲 Hopper 的时候，会举起一块芯片给大家看，那很可爱。但这是 Vera Rubin，当人们提到它，想到的从来不是一块芯片，而是一整个计算系统。” 黄仁勋的这句话，宣告了英伟达的时代变了 —— 从卖芯片，到卖一整套 AI 超级计算机。

Vera Rubin，是英伟达有史以来最复杂的 AI 计算系统。7 种自研芯片、5 种专用机架，从底层芯片到上层系统，全链路垂直集成、端到端优化，最终拼成了一台算力恐怖的巨型 AI 计算机。

这套系统里的每一个部件，都在刷新行业上限：

全新架构的 Rubin GPU，支持 NVLink 72 全互联，单系统实现 3.6 exaflops 算力，260TB/s 全对全带宽；
全新 Vera CPU，全球唯一采用 LPDDR5 的服务器处理器，单线程性能与能效比拉满，原本不打算单独售卖，如今已经成了确定的数十亿美元级业务；
全新 Groq LP30 推理芯片，500MB 片上 SRAM，专为极致推理而生的确定性数据流处理器；
BlueField 4 DPU+CX9 网卡，重构 AI 原生的存储基础设施；
第六代 NVLink Switch 交换芯片，满足大规模 MoE 模型的 GPU 间无缝通信；
全球首款量产的 Spectrum X CPO 共封装光学交换机，实现电子到光子的直接转换。

而最震撼的，是这套系统带来的算力飞跃：

在同一座 1GW 的数据中心里，从 Grace Blackwell 升级到 Vera Rubin+Groq，Token 生成速率从 200 万 / 秒，直接飙升到 7 亿 / 秒。

两年时间，350 倍的性能提升。而摩尔定律在同样的周期里，能带来的提升只有大约 1.5 倍。

更恐怖的是十年维度的对比：十年前的 DGX-1，8 块 Pascal GPU，算力 170 TFLOPS；十年后的 Vera Rubin NVLink 72，算力 3.6 ExaFLOPS。

十年，算力增长了四千万倍。

水与光的革命：打破算力的物理极限

350 倍的飞跃，从来不是靠在芯片里多塞几个晶体管实现的。当算力密度卷到极致，行业的瓶颈早就不在芯片本身，而在散热和互联。

Vera Rubin 给出的答案，是两大颠覆性的变革：一个关于水，一个关于光。

关于水，Vera Rubin 采用了100% 全液冷方案，就连 NVLink 交换机，都被完整地集成在液冷系统里。传统的外部线缆被彻底舍弃，转而在液冷模块内部实现板级、背板式的集成互联。

带来的改变是颠覆性的：过去安装一个 AI 机架需要两天时间，如今只需要两个小时，部署效率提升数十倍，同时彻底解决了超高算力密度下的散热难题。

关于光，黄仁勋在舞台上举起了全球首款量产的 CPO（共封装光学）交换机。

传统的网络架构里，电信号从芯片出发，要经过 PCB 走线、光模块的电 - 光转换，才能通过光纤传输，每一次转换都有延迟，每一段铜线都有功耗损耗。而 CPO 技术，把这条链路压缩到了极致：光学器件直接封装到芯片上，电子在硅片表面就直接转换成光子，没有光模块，没有铜线中转。

这项英伟达与台积电联合研发的 CoUP 封装工艺，目前全球只有英伟达实现了量产。

“要让 72 块 GPU 实现 260TB/s 的全对全带宽，用传统铜缆，信号传输距离、机架尺寸就是物理极限。” 黄仁勋解释道，“CPO 打破了这个限制，光子跑得更远、损耗更低、能效更高。”

面对行业里 “铜线和光学选哪个” 的反复追问，黄仁勋也直接给出了最终答案：“我们都要。我们需要更多的铜缆产能，更多的光芯片产能，更多的 CPO 产能。”

Groq 终极协同：高吞吐归 Rubin，低延迟归 Groq

Vera Rubin 的全液冷 + 光互联，让英伟达在高吞吐区间几乎做到了无敌。但还有一个行业难题没有解决：极致的低延迟推理。

当用户需要的不是 400 token / 秒的常规生成，而是 1000 token / 秒的极速推理，哪怕是 NVLink 72 拉满的带宽，也会捉襟见肘。

而这个问题的答案，藏在英伟达 2025 年底收购的推理芯片公司 Groq 身上。

在此之前，业界一直在猜测，英伟达会如何整合 Groq 的 LPU 技术 —— 毕竟 Groq 的架构，和英伟达的 GPU 几乎是两个极端：它是一颗确定性数据流处理器，靠静态编译、编译器调度实现极致效率，片上堆了 500MB 的巨量 SRAM，从头到尾只干一件事：AI 推理。

黄仁勋在发布会上，给出了最终的答案：不是用 Groq 替代 GPU，而是让两者极致协同。

一颗 Groq 芯片，配有 4GB SRAM，主打极致的推理速度；一颗 Rubin 芯片，配有 288GB HBM，主打极致的算力与容量。单独用 Groq，装不下万亿参数的大模型和海量 KV 缓存；单独用 Rubin，做不到极速的 Token 生成。

英伟达的解法，是行业首创的分离式推理：通过 Dynamo 推理框架拆分 AI 计算流水线，把 Pre-fill 和 attention 这些计算量巨大的环节，交给 Vera Rubin；把 decode 阶段的 Token 生成，这个对带宽、延迟极度敏感的环节，卸载给 Groq。

两颗架构完全不同的处理器，通过以太网实现紧密耦合，直接让端到端延迟减半，在最高价值的推理层级上，再实现 35 倍的吞吐量提升，更是直接解锁了千 token / 秒级别的极速生成场景，这在之前是根本无法实现的。

黄仁勋甚至直接给行业给出了明确的配比建议：如果你的工作负载以高吞吐训练、常规推理为主，100% 上 Vera Rubin 就足够了；如果你有大量的编程、工程级极速 Token 生成需求，只需要拿出 25% 的数据中心功率配给 Groq，就能实现质的飞跃。

目前，Groq 3 芯片已经由三星代工实现量产，预计 2026 年 Q3 正式出货；而 Vera Rubin 的首个机架，已经在微软 Azure 云上正式跑通。

OpenClaw：AI 时代的 Linux 时刻，改写整个企业 IT 逻辑

如果说芯片和系统，是英伟达给当下的 AI 行业递上的 “武器”，那发布会最后一部分的 OpenClaw，就是黄仁勋给未来十年的 AI 时代，定下的底层规则。

黄仁勋直接给 OpenClaw 下了定义：这是 AI 时代的 Linux 时刻。

他举了一个最接地气的例子：有人用 OpenClaw，帮自己 60 岁的父亲自动化了整个精酿啤酒生意 —— 蓝牙连接酿造设备实现全自动管控，自动生成销售网站，顾客下单后能自动触发全流程链路。

而在黄仁勋眼里，OpenClaw 的本质，是 Agent 计算机的操作系统。他用操作系统的核心模块，重新定义了 OpenClaw 的能力：

资源管理：可以自由调用大语言模型、访问文件系统、使用各类工具；
调度系统：能实现定时任务、分步执行、生成子 Agent 完成复杂任务；
I/O 系统：支持多模态输入输出，能看懂人的动作，能帮你发邮件、执行操作。

“Windows 开启了 PC 时代，Linux 开启了服务器时代，HTML 开启了互联网时代，Kubernetes 开启了云时代，而 OpenClaw，开启了 Agent 时代。” 黄仁勋的这句话，直接给行业的下一个十年定了调。

每一次平台的代际转移，都会催生一批改变世界的公司。而这一次，企业 IT 的全部逻辑，都将被彻底改写。

黄仁勋直接断言：未来，每家 SaaS 公司，都将变成 Agent-as-a-Service 公司。

但他也点出了 Agent 时代的核心痛点：Agent 能在企业网络里访问敏感信息、执行代码、对外通信，这背后的安全风险，是所有企业都无法回避的问题。

为此，英伟达与 OpenClaw 合作，推出了企业版 NeMo Claw，在开源能力的基础上，增加了策略引擎、网络护栏、隐私路由器，给企业级 Agent 上了一把安全锁。

更值得玩味的，是黄仁勋对未来企业形态的终极想象：

“未来，每个工程师都会有一个年度 Token 预算。他们的年薪是几十万美元，我会在此基础上，再拿出一半的金额，作为他们的 Token 使用额度。”

他笑着补充道：“这已经成了硅谷最新的招聘筹码 —— 你的 offer 里，带多少 Token？”

Two More Thing：下一代架构预告，把算力送上太空

在发布会的尾声，黄仁勋也带来了让全场再次沸腾的 “Two More Thing”。

第一个惊喜，是下一代计算架构 Feynman（费曼） 的正式预告。

黄仁勋明确表示，英伟达的计算架构，每年都会有新的突破。而 Feynman 架构，将带来全新的 GPU、全新的 LPU（LP40）、以及全新的 CPU Rosa。新一代的 BlueField 5 将连接下一代 CPU 与 SuperNIC CX10，配合全新的 Kyber 技术，实现铜线与光学的双扩展。

这也意味着，Feynman 将成为英伟达首个同时支持铜线与光学封装水平扩展的架构，彻底打破带宽与扩展的物理边界。

第二个惊喜，更是直接把英伟达的野心，送上了太空 ——NVIDIA 正与合作伙伴联合开发英伟达 Space One，一台将部署在近地轨道的太空数据中心计算机，正式开启 “太空算力” 的全新篇章。

“太空中没有对流，没有传导，只有辐射散热。我们得想办法，在太空里给 GPU 散热。不过我们有很多优秀的工程师，正在攻克这件事。” 黄仁勋的语气里满是期待。

把 GPU 送上近地轨道，让算力突破地球的边界，这大概是黄仁勋口中 “AI 无处不在”，最字面、也最极致的诠释。

结语

从迟到 15 分钟的登场，到万亿营收的重磅承诺；从重构行业逻辑的 Token 工厂经济学，到十年算力翻四千万倍的 Vera Rubin；从定义 Agent 时代的 OpenClaw，到冲上太空的算力野心。

黄仁勋的这场 GTC 2026 keynote，从来不是一场简单的产品发布会。

他给整个 AI 行业，讲透了当下 AI 生意的本质 —— 不是大模型的参数竞赛，不是应用的场景内卷，而是 Token 工厂的产能与成本之争，是每瓦性能的终极较量。

他也给行业指明了未来十年的方向 ——AI 的下一个时代，是 Agent 的时代，是算力无处不在的时代，而英伟达，早已站在了时代的入口，搭好了全套的基础设施。

当有人还在质疑 AI 的泡沫，质疑算力的需求天花板，黄仁勋已经用锁到 2027 年的万亿订单，用四千万倍的算力飞跃，告诉了全行业：AI 的革命，才刚刚开始。

而手握 Token 生产的 “水和电”，这位 Token 之王，和他的英伟达，还在一路狂奔。