英伟达不再卖芯片，卖 token 经济

《深度解析 2026 GTC：英伟达万亿订单背后的 AI 大爆发、Token 经济学与失衡供应链》（YouTube）拆解了今年 GTC 的两个底层信号：黄仁勋不再讲芯片故事，而是讲 token 经济；英伟达开始用一整套生态去围猎 AI 的每一层蛋糕。

推理拐点与叙事切换

ChatGPT 爆发三年半后，黄仁勋第一次在主舞台上宣告”推理拐点已到”——AI 终于能做生产性工作。背景是两件事叠加：多模态视频/图片生成与代码生成同时起量，Claude Code 一类的 agent 产品爆火。

新云厂商 GMI Cloud 创始人 Alex Yeh 的体感是：北美需求暴增主要来自多模态和编程，Claude Code 类 agent 的 token 需求则从中国先卷起来——硅谷开发者已经习惯让 agent 跑任务，但 to C 端的零代码 agent 还没大规模铺开。即便如此，“全球算力已经没了”。Alex 的判断是：当前 token 调用量”连 1% 到 5% 都还没到”，未来增长是”超级可怕的”。

姿态变化也很明显：今年的 PPT 上全是小心心，黄仁勋反复强调”全球每一家软件公司都需要一套智能体系统”。GTC 的关键词从”芯片”切到”生态”。

万亿订单：给 2027 年画一道底

去年 GTC 上，黄仁勋说当前与下一代 GPU 架构（Blackwell + Vera Rubin）到 2026 年底的订单收入会到 5000 亿美元。今年他直接把口径上调一倍：截至现在，到 2027 年底，仅 GPU 这一条产品线的订单就会到 1 万亿美元——不含新的 Vera CPU、不含基于 Groq 技术的 LPU、不含存储。

老黄在媒体闭门会上专门解释切口径的理由：把别的产品线塞进来反而模糊了 GPU 业务本身的增长。这个万亿是”实实在在的订单”，“过几个月再看还会往上走”。它给 2027 年营收划了一道底——按当前口径推算，对应 EPS 约 13–14 美元。

不强调单芯片性能的原因，一是叙事要拔到 AI Factory 层级，二是产能根本跟不上：两三年前的 H100、H200 仍在超原价出货，Blackwell 官宣两年才开始大规模铺开，再讲单卡提升对市场已无意义。

CapEx 上行还会持续。前沿实验室谁都没拉开身位、开源也没明显落后，模型厂商只剩两条路——往上做应用收钱，或用资产负债表硬怼算力和人才。OpenAI 喊出的 1.4 万亿就是后一条路的极致版本。

五层蛋糕：去同质化，再回收利润

英伟达在 GTC 前主动放出”AI 五层蛋糕”的提法——能源、芯片、基建（云厂 + 数据中心，往下细分到土地、供电、冷却、网络）、模型、应用。前三层合起来叫 AI Factory。

整个布局背后的逻辑可以用一句话概括：把其他几层做成同质化竞品，让稀缺价值回到自己有绝对垄断的那一层。过去几年稀缺价值集中在芯片，所以英伟达吃掉了大部分利润；现在它要主动出手维持这种格局：

基建层：云厂商有强议价权，于是扶持 CoreWeave、Nebius 这类新云去对冲 AWS、Google Cloud
模型层：自研开源模型 + 这次专门组织全球开源模型论坛，长期削弱顶级闭源模型的议价权。如果开源能做到 SOTA 90% 的性能、10% 的价格，token 价格被打下来，“最后赚钱的又回到英伟达这边”
应用层：自研自动驾驶和机器人，提前占位，等行业爆发时入口已经在自己手里

200 亿收编 Groq：打响 ASIC 反击战

第一记重拳是基于 Groq 技术做出来的 LPU。去年圣诞节前后英伟达花 200 亿美元拿下 Groq 的非独家技术授权——史上最大一笔交易，老黄三周决定，三个月就出了产品。

技术动机很清楚：GPU 擅长高吞吐并行计算，做 Prefill（上下文预处理）和 Attention 很强，但 token 生成（Decode）是串行链式任务，对每一步延迟都极其敏感，“高吞吐”和”低延迟”天生矛盾。Groq 创始人 Jonathan Ross 用一个类比打动了黄仁勋——GPU 是 18 轮大卡车，推理是”最后一公里配送”，更适合灵活的面包车，“两种你都需要”。

英伟达的解法是用 Dynamo 软件把推理过程拆成两半：Vera Rubin 负责 Prefill 与 Attention，Groq LPU 负责 Decode 与 token 生成。一颗 Rubin GPU 配 8 颗 Groq 3 LPU 组成一个推理单元；Groq 3 LPX 整机塞进 256 颗 LPU，提供 128GB SRAM、40 PB/s 带宽、315 PFLOPS 推理算力、640 TB/s 互连。英伟达宣称这一组合解锁了 3000 亿美元的增量市场，token 生成速率从 200 万提升到 7 亿——350 倍。

更深一层是 ASIC 反击战。谷歌 TPU、各家云厂自研、Groq 本身都是 ASIC，过去都在蚕食英伟达 GPU 的利润。这次英伟达等于在告诉外界：“ASIC 我也能做，而且和我自己的 GPU 协同设计，性能更强。“LPU 已与三星合作量产，预计 Q3 出货；Vera Rubin 机架已经在 Azure 上跑。代价是这笔交易因涉嫌”变相收购”面临反垄断潜在调查。

CPU 枯木逢春，CPX 是隐藏底牌

agent 工作负载需要在多个智能体之间协调流程、搬运海量数据，CPU 的重要性回到和 GPU 相当的位置。英伟达发布了 Vera CPU——号称全球首款专为 agent 与强化学习时代设计的处理器，效率是传统机架级 CPU 的 2 倍，速度提升 50%。Cursor 站台说自己的整体吞吐和编程 agent 响应速度都因此提升。

设计思路很具体：GPU 跑推理或 RL 训练时会生成大量代码，需要快速评估对错并把反馈塞回 GPU——CPU 承担评估，必须高单核 + 高带宽，让 GPU 不空等。

另一个隐藏武器是 CPX，去年 9 月推出，专为长上下文推理优化，能处理百万级 token 的编程和生成式视频任务，被外界视为 GPU 的全新类别。这次 keynote 老黄完全没提 CPX。GPU + CPU + LPU + CPX 拼出一套全栈组合拳。

Scale-across、CPO 与更远的布局

黄仁勋在 keynote 上没怎么提共封装光学（CPO），但 3 月初英伟达分别向 Lumentum 和 Coherent 各注资 20 亿美元，并锁定数十亿采购承诺与未来产能权益。前者是当前唯一的高功率 DFB 激光器（400 milliwatt，OFC 上提到 1 watt 级）供应商；后者在硅光光子学上有多年技术与专利沉淀。两笔投资都是为下一代”吉瓦级 AI 工厂”铺光互联的底座。

行业还在讨论 Scale-up（毫米级，纵向扩容）与 Scale-out（米级，横向扩容），黄仁勋已经在思考 Scale-across——千米及更远的跨数据中心互联。这个尺度上技术路线还没定论：波长、光纤类型、激光器布置都在讨论中。再远一步还有 keynote 提到的太空数据中心。

供应链全面亮红灯

万亿叙事的另一面是供应链全线吃紧。产业链同行反馈”什么都缺”——内存、CX7、电源、CPU 全都缺货涨价，DDR4 价格已是去年同期的 10 倍。Claude Code、agent、多模态、编程同时起量，被形容为”完美风暴”。

能源价格受地缘政治波动也很大，但能源仅占 token 定价约 10%；让 token 价格压不下来的主因是供应链短缺，特别是服务器内存涨价。

三星在展会现场的判断是：紧缺至少持续到 2027 年底；这轮 supercycle”前所未有”——以前由手机、电脑、互联网驱动，这一轮完全是 AI；2026 年完全 sold out，2027 年仍紧缺，产线已在投但实质放量要到 2028 年。云厂和数据中心买家对成本不敏感，未来两年内存需求仍会非常强。

整个图景到这里就清楚了：黄仁勋在做的不是把单一产品做到极致，而是同时整合五层、定义入口范式、扶持每一层的对手互相牵制——确保不管哪一层被同质化，议价权和利润最终都流回到自己手里。