世界模型：定义、路线与 AGI 路径

原文：全面解析”世界模型”：定义、路线、实践与AGI的更近一步

一、世界模型是什么

1、从心智模型到 AI 世界观

世界模型（World Model）的思想来源于认知科学。科学家认为人类能够预判杯子会掉落、门往哪开、球会顺着斜坡滚，是因为从很小就在脑子里构建了一个”世界怎么运作”的模型——这在认知科学中被称为心智模型（Mental Model）。Kenneth Craik 在 1943 年就提出，人在对现实作出反应之前，会先在大脑中构建一个”小规模的世界模型”来模拟可能发生的过程，再据此选择行动。

AI 研究者从这里出发追问：机器要想具备真正的智能，是否也需要属于自己的世界？这个思想在强化学习早期以不同名称反复出现。1991 年，Richard Sutton 等人提出了 Dyna 架构——智能体不只学习行动策略，也要学习”采取某个动作后世界如何变化”的模型，这是第一次将”世界模型”明确确立为智能体内部的基础能力。

2018 年，Google Brain 的 David Ha 与 Jürgen Schmidhuber 发表了论文《World Models》，给出了一个简洁的理解框架：世界模型 = 观察世界（V，视觉）+ 预测世界（M，记忆）+ 在内部世界中学习行动（C，控制）。他们也做出了 Demo，让模型在完全虚拟的小世界中学会了玩赛车游戏——证明 AI 可以通过内部世界的想象进行学习。

2、世界模型与大语言模型的本质区别

这两条技术路线的目标不同，但终点一致——都是通向通用人工智能（AGI）。区别在于：大语言模型的目标是生成语言维度上最合理的序列，预测的是”下一个词”；世界模型的目标是预测”下一秒世界会变成什么样子”，预测的是下一帧画面、下一步动作、下一次状态变化。

从数据上看：大语言模型主要依赖文本，静态内容为主；世界模型主要依赖视频等动态数据，包含摄像头画面、机器人传感器反馈、动作结果和环境变化。李飞飞的概括很准确：“一种是关于表达，另一种是关于观察和行动。”

研究者们普遍认为世界模型应具备三大特质：表示世界（环境里有什么、物体在哪、物物关系）、预测未来（如果我推了杯子，世界会变成什么）、规划和行动（基于预测做出决策）。

二、为什么世界模型在现在升温

1、大模型天花板已经显现

视频说明了当前共识的几个层次。第一，单纯把模型做得更大已不再像过去那样带来立竿见影的突破，规模继续上去可以变强，但在算力、数据、能源、成本的硬约束下性价比下降。第二，AI 需要更直接地接触真实世界——语言世界太干净了，无法提供现实世界里那种混乱、连续、充满不确定性的因果经验。第三，多模态时代的到来，让训练世界模型所需的海量视觉与动作数据、大规模视频模型能力和算力第一次逐步成熟。

Yann LeCun 是反 LLM 路线最鲜明的声音：他认为大语言模型是在拟合语言的统计相关性，对现实世界几乎没有直接建模能力；继续沿这条路”堆量”，最多做出更会说话的模型。他预言再过 5 年，GPT 类模型就不会再有人用了。不过视频也说明这仍然是争议性判断——主流共识更接近”世界模型和大模型是互补关系”，世界模型不是推翻重来，而是为大语言模型补上”现实世界”的维度。

三、世界模型的三层架构与当前实践

1、三层结构框架

视频嘉宾 Yiqi（Meta 研究者）提出了一个有助于理解整个领域的框架，把世界模型拆成三层：

底层：思维与范式——抽象表示（Latent MDP）、环境动力学模型（Dynamics）、内部模拟能力（Simulator），这是世界模型真正的核心，也是最抽象、看不见的部分
中层：世界的”表现形式”——模型如何把世界生成出来，是当前最热闹的层级
上层：智能体训练——让 AI 最终能在这个世界里行动、做任务、完成决策

目前产业界的大多数热门工作，其实集中在第二层，也就是”世界生成”。

2、视频生成路线：把世界”画”出来

以 OpenAI Sora、Google Genie 为代表。Sora 在发布之初就被定义为”世界模拟器”——不是把视频帧拼出来，而是让画面里的事物随时间连续演化，模型似乎开始真正”了解”事物变化背后的规律。

Google 的 Genie 系列走得更远：Genie 3 能根据用户的文本或图像提示实时生成可交互的虚拟环境，用户可以进行长达数分钟的交互，并且世界状态具有长时间一致性——“你走到别处再回来，黑板上的字还在”。这让视频生成从”播放”走向”交互”，从”电影式生成”走向”游戏式模拟”。

视频生成路线的优势：训练数据丰富（互联网海量视频）、对 Scaling Law 敏感（规模越大效果越好）、结果可见可验证、商业化快（影视、广告、游戏）。局限：内部对世界的理解是”隐式的”，模型理解的世界规律”藏在权重里”，无法直接读取、也无法移植到机器人或决策系统。举个例子：让 Sora 生成一辆行驶的车，造型和光影可能很逼真，但问”这辆车的长宽高是多少、被挡住的轮胎在哪里”——答不上来，因为它没有构建 3D 几何模型，只学到了像素组合的概率分布。

3、3D 生成路线：把世界”搭”出来

以李飞飞创建的 World Labs 为代表，技术核心是空间智能。不追求画面逼真，而关注世界的结构——物体在哪里、空间的几何关系是什么、物体之间如何互相影响。

最新模型 Marble 通过高斯泼溅（Gaussian Splatting）技术，可以从图片或视频重建完整的 3D 场景结构——你问它图片里汽车的长宽高，它能回答”长 4.5 米、宽 1.8 米”，并输出 3D 网格文件。李飞飞认为这条路的价值在于：真实的世界是 3D 的，机器人要抓取物体、自动驾驶要理解空间和距离，这些都不是二维像素能表达的。

3D 生成的优势：生成的是显式结构（不是隐式），物理模拟、规划、控制更容易实现。局限：训练数据稀缺（高质量 3D 数据主要靠 LiDAR 等专业设备采集）、几何结构难建（多出一个维度让计算量爆炸）、对算力需求巨大。World Labs 最新一轮融资 10 亿美元，估值 50 亿，短短一年半涨了 5 倍。

四、智能体训练：让 AI 在世界里行动

1、SIMA：在游戏世界里练级

Google 的 SIMA 代表了”直接用世界生成模型作为训练环境”的路线——把 AI 放进多种游戏环境里不断犯错、探索、总结，学会可以迁移到真实世界的能力。最新的 SIMA 2 将 Gemini 嵌入内核，并首次使用 Genie 3 生成的游戏世界进行训练，展现出能够自主探索陌生环境、在从未见过的游戏里理解方向和指令的跨场景泛化能力。

2、JEPA：不生成世界，直接学世界的结构

Yann LeCun 的 JEPA（Joint Embedding Predictive Architecture，联合嵌入预测架构）路线截然不同：不预测像素，不重建视觉内容，而是把真实世界压缩成抽象的高维潜在表示，然后在这个潜在空间里预测未来的结构化状态。

举例：如果你轻轻推一个球，视频模型要预测下一帧里球的位置、阴影、光照、材质反射；JEPA 只关心球会往哪个方向滚、速度怎么变、会不会撞到障碍物——它学的是未来的结构，而不是未来的画面。

JEPA 的理论优势：计算成本低（不”画世界”）、更容易捕捉因果关系、更适合机器人和具身智能需要的”可操作世界”。但目前面临的现实问题是：学到的东西藏在抽象潜在空间里，难以直接看到和验证；自监督目标极难设计；缺乏统一的评估基准。Yann LeCun 已为 JEPA 呼吁多年，但它至今没有成为研究主流。

五、世界模型会改变哪些行业

机器人是最直接的受益领域。过去机器人做的一切本质上都是”被编程好的动作”，环境稍微变化就失能。世界模型让机器人拥有内部模型：先在脑子里模拟箱子会不会翻倒、门把能否顺利转动，再决定要不要执行。过去要工程师几十小时调参的任务，机器人在模拟世界里自主练习就能掌握，并把虚拟世界里的规律迁移到现实——尽管 Sim-to-Real Gap（虚实差异，模型在仿真中学到的规律迁移到真实世界时出现的偏差）仍然是开放难题。

自动驾驶的瓶颈之一是系统”看得见世界”却难以稳定预测接下来会发生什么，以及极端天气、突发事故等长尾场景在真实道路中极其稀少。Waymo 正在把系统核心构建为一个基础模型（Foundation Model），采用”分段式端到端”架构，不只完成单一任务，而是学习”世界如何运转”，并能在内部同时推演大量可能的决策路径。

游戏行业可能迎来最颠覆性的变化：传统游戏世界需要数百人团队花几年时间一砖一瓦搭建，世界模型意味着世界不需要”制作”而可以自动生成和进化——设计师只需规定规则和生态，AI 就能生长出完整的世界。

核心归纳

Q1: 世界模型和大语言模型的根本区别是什么？

大语言模型预测的是”下一个词”，通过语言间接理解世界；世界模型预测的是”下一秒世界会变成什么”，通过动态数据直接建模现实，关注感知、预测和行动。两者不是替代关系，而是互补——世界模型是为大模型补上”现实世界”的维度。

Q2: 视频生成和 3D 生成这两条路线各自的核心差异是什么？

视频生成把世界”画”出来，理解世界的规律藏在模型权重里（隐式），可见、可规模化、商业化快，但难以移植到需要显式几何结构的机器人或决策系统。3D 生成把世界”搭”出来，生成的是显式结构，物理模拟和规划更容易实现，但训练数据稀缺、计算成本极高。

Q3: 世界模型带来哪些新的风险？

世界模型的”幻觉”是系统级的——不是编造了一个事实，而是在整个”世界结构”里出现误判（误判物体重量、高估动作可行性），会直接影响智能体的决策和行动。此外还有权力集中问题：只有极少数机构能构建世界模型，而成熟的世界模型意味着前所未有的对市场、社会行为、群体反应的高精度预测能力。