一、世界模型是什么
1、从心智模型到 AI 世界观
世界模型(World Model)的思想来源于认知科学。科学家认为人类能够预判杯子会掉落、门往哪开、球会顺着斜坡滚,是因为从很小就在脑子里构建了一个”世界怎么运作”的模型——这在认知科学中被称为心智模型(Mental Model)。Kenneth Craik 在 1943 年就提出,人在对现实作出反应之前,会先在大脑中构建一个”小规模的世界模型”来模拟可能发生的过程,再据此选择行动。
AI 研究者从这里出发追问:机器要想具备真正的智能,是否也需要属于自己的世界?这个思想在强化学习早期以不同名称反复出现。1991 年,Richard Sutton 等人提出了 Dyna 架构——智能体不只学习行动策略,也要学习”采取某个动作后世界如何变化”的模型,这是第一次将”世界模型”明确确立为智能体内部的基础能力。
2018 年,Google Brain 的 David Ha 与 Jürgen Schmidhuber 发表了论文《World Models》,给出了一个简洁的理解框架:世界模型 = 观察世界(V,视觉)+ 预测世界(M,记忆)+ 在内部世界中学习行动(C,控制)。他们也做出了 Demo,让模型在完全虚拟的小世界中学会了玩赛车游戏——证明 AI 可以通过内部世界的想象进行学习。
2、世界模型与大语言模型的本质区别
这两条技术路线的目标不同,但终点一致——都是通向通用人工智能(AGI)。区别在于:大语言模型的目标是生成语言维度上最合理的序列,预测的是”下一个词”;世界模型的目标是预测”下一秒世界会变成什么样子”,预测的是下一帧画面、下一步动作、下一次状态变化。
从数据上看:大语言模型主要依赖文本,静态内容为主;世界模型主要依赖视频等动态数据,包含摄像头画面、机器人传感器反馈、动作结果和环境变化。李飞飞的概括很准确:“一种是关于表达,另一种是关于观察和行动。”
研究者们普遍认为世界模型应具备三大特质:表示世界(环境里有什么、物体在哪、物物关系)、预测未来(如果我推了杯子,世界会变成什么)、规划和行动(基于预测做出决策)。
二、为什么世界模型在现在升温
1、大模型天花板已经显现
视频说明了当前共识的几个层次。第一,单纯把模型做得更大已不再像过去那样带来立竿见影的突破,规模继续上去可以变强,但在算力、数据、能源、成本的硬约束下性价比下降。第二,AI 需要更直接地接触真实世界——语言世界太干净了,无法提供现实世界里那种混乱、连续、充满不确定性的因果经验。第三,多模态时代的到来,让训练世界模型所需的海量视觉与动作数据、大规模视频模型能力和算力第一次逐步成熟。
Yann LeCun 是反 LLM 路线最鲜明的声音:他认为大语言模型是在拟合语言的统计相关性,对现实世界几乎没有直接建模能力;继续沿这条路”堆量”,最多做出更会说话的模型。他预言再过 5 年,GPT 类模型就不会再有人用了。不过视频也说明这仍然是争议性判断——主流共识更接近”世界模型和大模型是互补关系”,世界模型不是推翻重来,而是为大语言模型补上”现实世界”的维度。
三、世界模型的三层架构与当前实践
1、三层结构框架
视频嘉宾 Yiqi(Meta 研究者)提出了一个有助于理解整个领域的框架,把世界模型拆成三层:
- 底层:思维与范式——抽象表示(Latent MDP)、环境动力学模型(Dynamics)、内部模拟能力(Simulator),这是世界模型真正的核心,也是最抽象、看不见的部分
- 中层:世界的”表现形式”——模型如何把世界生成出来,是当前最热闹的层级
- 上层:智能体训练——让 AI 最终能在这个世界里行动、做任务、完成决策
目前产业界的大多数热门工作,其实集中在第二层,也就是”世界生成”。
2、视频生成路线:把世界”画”出来
以 OpenAI Sora、Google Genie 为代表。Sora 在发布之初就被定义为”世界模拟器”——不是把视频帧拼出来,而是让画面里的事物随时间连续演化,模型似乎开始真正”了解”事物变化背后的规律。
Google 的 Genie 系列走得更远:Genie 3 能根据用户的文本或图像提示实时生成可交互的虚拟环境,用户可以进行长达数分钟的交互,并且世界状态具有长时间一致性——“你走到别处再回来,黑板上的字还在”。这让视频生成从”播放”走向”交互”,从”电影式生成”走向”游戏式模拟”。
视频生成路线的优势:训练数据丰富(互联网海量视频)、对 Scaling Law 敏感(规模越大效果越好)、结果可见可验证、商业化快(影视、广告、游戏)。局限:内部对世界的理解是”隐式的”,模型理解的世界规律”藏在权重里”,无法直接读取、也无法移植到机器人或决策系统。举个例子:让 Sora 生成一辆行驶的车,造型和光影可能很逼真,但问”这辆车的长宽高是多少、被挡住的轮胎在哪里”——答不上来,因为它没有构建 3D 几何模型,只学到了像素组合的概率分布。
3、3D 生成路线:把世界”搭”出来
以李飞飞创建的 World Labs 为代表,技术核心是空间智能。不追求画面逼真,而关注世界的结构——物体在哪里、空间的几何关系是什么、物体之间如何互相影响。
最新模型 Marble 通过高斯泼溅(Gaussian Splatting)技术,可以从图片或视频重建完整的 3D 场景结构——你问它图片里汽车的长宽高,它能回答”长 4.5 米、宽 1.8 米”,并输出 3D 网格文件。李飞飞认为这条路的价值在于:真实的世界是 3D 的,机器人要抓取物体、自动驾驶要理解空间和距离,这些都不是二维像素能表达的。
3D 生成的优势:生成的是显式结构(不是隐式),物理模拟、规划、控制更容易实现。局限:训练数据稀缺(高质量 3D 数据主要靠 LiDAR 等专业设备采集)、几何结构难建(多出一个维度让计算量爆炸)、对算力需求巨大。World Labs 最新一轮融资 10 亿美元,估值 50 亿,短短一年半涨了 5 倍。
四、智能体训练:让 AI 在世界里行动
1、SIMA:在游戏世界里练级
Google 的 SIMA 代表了”直接用世界生成模型作为训练环境”的路线——把 AI 放进多种游戏环境里不断犯错、探索、总结,学会可以迁移到真实世界的能力。最新的 SIMA 2 将 Gemini 嵌入内核,并首次使用 Genie 3 生成的游戏世界进行训练,展现出能够自主探索陌生环境、在从未见过的游戏里理解方向和指令的跨场景泛化能力。
2、JEPA:不生成世界,直接学世界的结构
Yann LeCun 的 JEPA(Joint Embedding Predictive Architecture,联合嵌入预测架构)路线截然不同:不预测像素,不重建视觉内容,而是把真实世界压缩成抽象的高维潜在表示,然后在这个潜在空间里预测未来的结构化状态。
举例:如果你轻轻推一个球,视频模型要预测下一帧里球的位置、阴影、光照、材质反射;JEPA 只关心球会往哪个方向滚、速度怎么变、会不会撞到障碍物——它学的是未来的结构,而不是未来的画面。
JEPA 的理论优势:计算成本低(不”画世界”)、更容易捕捉因果关系、更适合机器人和具身智能需要的”可操作世界”。但目前面临的现实问题是:学到的东西藏在抽象潜在空间里,难以直接看到和验证;自监督目标极难设计;缺乏统一的评估基准。Yann LeCun 已为 JEPA 呼吁多年,但它至今没有成为研究主流。
五、世界模型会改变哪些行业
机器人是最直接的受益领域。过去机器人做的一切本质上都是”被编程好的动作”,环境稍微变化就失能。世界模型让机器人拥有内部模型:先在脑子里模拟箱子会不会翻倒、门把能否顺利转动,再决定要不要执行。过去要工程师几十小时调参的任务,机器人在模拟世界里自主练习就能掌握,并把虚拟世界里的规律迁移到现实——尽管 Sim-to-Real Gap(虚实差异,模型在仿真中学到的规律迁移到真实世界时出现的偏差)仍然是开放难题。
自动驾驶的瓶颈之一是系统”看得见世界”却难以稳定预测接下来会发生什么,以及极端天气、突发事故等长尾场景在真实道路中极其稀少。Waymo 正在把系统核心构建为一个基础模型(Foundation Model),采用”分段式端到端”架构,不只完成单一任务,而是学习”世界如何运转”,并能在内部同时推演大量可能的决策路径。
游戏行业可能迎来最颠覆性的变化:传统游戏世界需要数百人团队花几年时间一砖一瓦搭建,世界模型意味着世界不需要”制作”而可以自动生成和进化——设计师只需规定规则和生态,AI 就能生长出完整的世界。
核心归纳
Q1: 世界模型和大语言模型的根本区别是什么?
- 大语言模型预测的是”下一个词”,通过语言间接理解世界;世界模型预测的是”下一秒世界会变成什么”,通过动态数据直接建模现实,关注感知、预测和行动。两者不是替代关系,而是互补——世界模型是为大模型补上”现实世界”的维度。
Q2: 视频生成和 3D 生成这两条路线各自的核心差异是什么?
- 视频生成把世界”画”出来,理解世界的规律藏在模型权重里(隐式),可见、可规模化、商业化快,但难以移植到需要显式几何结构的机器人或决策系统。3D 生成把世界”搭”出来,生成的是显式结构,物理模拟和规划更容易实现,但训练数据稀缺、计算成本极高。
Q3: 世界模型带来哪些新的风险?
- 世界模型的”幻觉”是系统级的——不是编造了一个事实,而是在整个”世界结构”里出现误判(误判物体重量、高估动作可行性),会直接影响智能体的决策和行动。此外还有权力集中问题:只有极少数机构能构建世界模型,而成熟的世界模型意味着前所未有的对市场、社会行为、群体反应的高精度预测能力。