Skip to content
Synapse
Go back

英伟达不再卖芯片,卖 token 经济

2173 字 · 6 分钟

《深度解析 2026 GTC:英伟达万亿订单背后的 AI 大爆发、Token 经济学与失衡供应链》(YouTube)拆解了今年 GTC 的两个底层信号:黄仁勋不再讲芯片故事,而是讲 token 经济;英伟达开始用一整套生态去围猎 AI 的每一层蛋糕。

推理拐点与叙事切换

ChatGPT 爆发三年半后,黄仁勋第一次在主舞台上宣告”推理拐点已到”——AI 终于能做生产性工作。背景是两件事叠加:多模态视频/图片生成与代码生成同时起量,Claude Code 一类的 agent 产品爆火。

新云厂商 GMI Cloud 创始人 Alex Yeh 的体感是:北美需求暴增主要来自多模态和编程,Claude Code 类 agent 的 token 需求则从中国先卷起来——硅谷开发者已经习惯让 agent 跑任务,但 to C 端的零代码 agent 还没大规模铺开。即便如此,“全球算力已经没了”。Alex 的判断是:当前 token 调用量”连 1% 到 5% 都还没到”,未来增长是”超级可怕的”。

姿态变化也很明显:今年的 PPT 上全是小心心,黄仁勋反复强调”全球每一家软件公司都需要一套智能体系统”。GTC 的关键词从”芯片”切到”生态”。

万亿订单:给 2027 年画一道底

去年 GTC 上,黄仁勋说当前与下一代 GPU 架构(Blackwell + Vera Rubin)到 2026 年底的订单收入会到 5000 亿美元。今年他直接把口径上调一倍:截至现在,到 2027 年底,仅 GPU 这一条产品线的订单就会到 1 万亿美元——不含新的 Vera CPU、不含基于 Groq 技术的 LPU、不含存储。

老黄在媒体闭门会上专门解释切口径的理由:把别的产品线塞进来反而模糊了 GPU 业务本身的增长。这个万亿是”实实在在的订单”,“过几个月再看还会往上走”。它给 2027 年营收划了一道底——按当前口径推算,对应 EPS 约 13–14 美元。

不强调单芯片性能的原因,一是叙事要拔到 AI Factory 层级,二是产能根本跟不上:两三年前的 H100、H200 仍在超原价出货,Blackwell 官宣两年才开始大规模铺开,再讲单卡提升对市场已无意义。

CapEx 上行还会持续。前沿实验室谁都没拉开身位、开源也没明显落后,模型厂商只剩两条路——往上做应用收钱,或用资产负债表硬怼算力和人才。OpenAI 喊出的 1.4 万亿就是后一条路的极致版本。

五层蛋糕:去同质化,再回收利润

英伟达在 GTC 前主动放出”AI 五层蛋糕”的提法——能源、芯片、基建(云厂 + 数据中心,往下细分到土地、供电、冷却、网络)、模型、应用。前三层合起来叫 AI Factory。

整个布局背后的逻辑可以用一句话概括:把其他几层做成同质化竞品,让稀缺价值回到自己有绝对垄断的那一层。过去几年稀缺价值集中在芯片,所以英伟达吃掉了大部分利润;现在它要主动出手维持这种格局:

200 亿收编 Groq:打响 ASIC 反击战

第一记重拳是基于 Groq 技术做出来的 LPU。去年圣诞节前后英伟达花 200 亿美元拿下 Groq 的非独家技术授权——史上最大一笔交易,老黄三周决定,三个月就出了产品。

技术动机很清楚:GPU 擅长高吞吐并行计算,做 Prefill(上下文预处理)和 Attention 很强,但 token 生成(Decode)是串行链式任务,对每一步延迟都极其敏感,“高吞吐”和”低延迟”天生矛盾。Groq 创始人 Jonathan Ross 用一个类比打动了黄仁勋——GPU 是 18 轮大卡车,推理是”最后一公里配送”,更适合灵活的面包车,“两种你都需要”。

英伟达的解法是用 Dynamo 软件把推理过程拆成两半:Vera Rubin 负责 Prefill 与 Attention,Groq LPU 负责 Decode 与 token 生成。一颗 Rubin GPU 配 8 颗 Groq 3 LPU 组成一个推理单元;Groq 3 LPX 整机塞进 256 颗 LPU,提供 128GB SRAM、40 PB/s 带宽、315 PFLOPS 推理算力、640 TB/s 互连。英伟达宣称这一组合解锁了 3000 亿美元的增量市场,token 生成速率从 200 万提升到 7 亿——350 倍。

更深一层是 ASIC 反击战。谷歌 TPU、各家云厂自研、Groq 本身都是 ASIC,过去都在蚕食英伟达 GPU 的利润。这次英伟达等于在告诉外界:“ASIC 我也能做,而且和我自己的 GPU 协同设计,性能更强。“LPU 已与三星合作量产,预计 Q3 出货;Vera Rubin 机架已经在 Azure 上跑。代价是这笔交易因涉嫌”变相收购”面临反垄断潜在调查。

CPU 枯木逢春,CPX 是隐藏底牌

agent 工作负载需要在多个智能体之间协调流程、搬运海量数据,CPU 的重要性回到和 GPU 相当的位置。英伟达发布了 Vera CPU——号称全球首款专为 agent 与强化学习时代设计的处理器,效率是传统机架级 CPU 的 2 倍,速度提升 50%。Cursor 站台说自己的整体吞吐和编程 agent 响应速度都因此提升。

设计思路很具体:GPU 跑推理或 RL 训练时会生成大量代码,需要快速评估对错并把反馈塞回 GPU——CPU 承担评估,必须高单核 + 高带宽,让 GPU 不空等。

另一个隐藏武器是 CPX,去年 9 月推出,专为长上下文推理优化,能处理百万级 token 的编程和生成式视频任务,被外界视为 GPU 的全新类别。这次 keynote 老黄完全没提 CPX。GPU + CPU + LPU + CPX 拼出一套全栈组合拳。

Scale-across、CPO 与更远的布局

黄仁勋在 keynote 上没怎么提共封装光学(CPO),但 3 月初英伟达分别向 Lumentum 和 Coherent 各注资 20 亿美元,并锁定数十亿采购承诺与未来产能权益。前者是当前唯一的高功率 DFB 激光器(400 milliwatt,OFC 上提到 1 watt 级)供应商;后者在硅光光子学上有多年技术与专利沉淀。两笔投资都是为下一代”吉瓦级 AI 工厂”铺光互联的底座。

行业还在讨论 Scale-up(毫米级,纵向扩容)与 Scale-out(米级,横向扩容),黄仁勋已经在思考 Scale-across——千米及更远的跨数据中心互联。这个尺度上技术路线还没定论:波长、光纤类型、激光器布置都在讨论中。再远一步还有 keynote 提到的太空数据中心。

供应链全面亮红灯

万亿叙事的另一面是供应链全线吃紧。产业链同行反馈”什么都缺”——内存、CX7、电源、CPU 全都缺货涨价,DDR4 价格已是去年同期的 10 倍。Claude Code、agent、多模态、编程同时起量,被形容为”完美风暴”。

能源价格受地缘政治波动也很大,但能源仅占 token 定价约 10%;让 token 价格压不下来的主因是供应链短缺,特别是服务器内存涨价。

三星在展会现场的判断是:紧缺至少持续到 2027 年底;这轮 supercycle”前所未有”——以前由手机、电脑、互联网驱动,这一轮完全是 AI;2026 年完全 sold out,2027 年仍紧缺,产线已在投但实质放量要到 2028 年。云厂和数据中心买家对成本不敏感,未来两年内存需求仍会非常强。

整个图景到这里就清楚了:黄仁勋在做的不是把单一产品做到极致,而是同时整合五层、定义入口范式、扶持每一层的对手互相牵制——确保不管哪一层被同质化,议价权和利润最终都流回到自己手里。



相关内容

上一篇
Boris Cherny 谈编程已被解决之后
下一篇
新大陆是几百个部落,不是一张地图