Skip to content
Synapse
Go back

从推理思考到智能体思考

From “Reasoning” Thinking to “Agentic” Thinking 是 Qwen 团队林俊阳的一篇长文,复盘了从 o1/R1 到 agentic thinking(智能体思考)的演进脉络,核心判断是:

AI 正在从”训练模型”转向”训练智能体”——竞争优势的来源也随之改变。

o1 和 R1 真正教会我们的事

过去两年,OpenAI 的 o1 证明了”思考”可以被训练成一种一等公民能力,DeepSeek-R1 则证明推理式后训练可以在原始实验室之外被复现和扩展。这一波推理模型的核心教训有两条:

第一,RL 需要确定性的反馈信号。 数学、代码、逻辑等可验证领域之所以成为核心训练场,是因为它们提供的奖励信号远强于泛化的偏好监督——RL 可以优化”正确性”而非”听起来像对的”。

第二,推理模型本质上是个基础设施问题。 一旦模型被训练在更长的轨迹上推理,RL 就不再是 SFT 之后的轻量附加,而是需要大规模 rollout、高吞吐验证、稳定策略更新、高效采样的系统工程。推理模型的崛起,基建故事和建模故事各占一半。

思考模式和指令模式的合并之难

2025 年初,Qwen 团队的设想是:理想系统应该统一 thinking(思考)和 instruct(指令)两种模式,支持可调推理力度,甚至能根据提示自动判断该花多少算力。Qwen3 是这个方向最清晰的公开尝试——引入混合思考模式,支持可控思考预算,设计了四阶段后训练流水线。

概念上没问题,执行起来很痛。核心矛盾在数据分布:

这两种行为特征互相拉扯。数据混合做不好,结果是两头都平庸:思考行为变得噪声大、冗长、不果断,指令行为变得不干脆、不可靠、更贵。

Qwen 的实际路线最终走向分离——2507 版本分别发布了 Instruct 和 Thinking 两条独立线,包括 30B 和 235B 变体。大量商业客户仍然需要高吞吐、低成本、高可控的纯指令行为,合并对他们并不是优势。

Anthropic 走了相反的路。Claude 3.7 Sonnet 作为混合推理模型发布,用户可以选择普通响应或扩展思考,API 端可以设定思考预算。Anthropic 明确主张推理应是集成能力而非独立模型。Claude 4 进一步允许推理过程中穿插工具调用。DeepSeek V3.1 和 GLM-4.5 后来也转向了类似的混合方向。

关键问题不是”合不合”,而是合并是否有机:如果思考和指令只是共存于一个 checkpoint 里但表现得像两个别扭缝合的人格,产品体验仍然不自然。真正成功的合并需要一个平滑的推理力度光谱——模型能在多个力度级别间表达和自适应切换。

Anthropic 的方向为什么是个有用的纠偏

Anthropic 在 Claude 3.7 和 Claude 4 上的公开定位很克制:强调集成推理、用户可控思考预算、真实世界任务、编码质量,以及在扩展思考期间使用工具的能力。

这背后有一个重要洞察:更长的推理轨迹并不自动意味着更聪明。 很多时候,过度可见的推理恰恰是分配失败的信号——模型在用同样冗长的方式推理一切,说明它无法区分优先级、无法压缩、无法行动。

Anthropic 的轨迹指向一种更有纪律的观点:思考应该被目标工作负载塑造。如果目标是写代码,思考就应该服务于代码库导航、规划、分解、错误恢复和工具编排;如果目标是智能体工作流,思考就应该改善长时间跨度上的执行质量,而不是生产漂亮的中间文字。

Agentic Thinking 到底是什么

Agentic thinking(智能体思考)的优化目标和推理思考根本不同。推理思考通常以最终答案的正确性来衡量:能不能解题、写证明、通过 benchmark。智能体思考关心的是:模型能否在与环境交互的过程中持续推进。

核心问题从”模型能不能想得够久”变成了”模型能不能以维持有效行动的方式思考”。智能体思考必须处理几件纯推理模型基本可以回避的事情:

一句话:智能体思考是通过行动来推理的模型。

智能体 RL 基础设施为什么更难

一旦目标从解 benchmark 题转向解交互式任务,整个 RL 技术栈都要变。推理 RL 的 rollout 基本是自包含轨迹加上相对干净的验证器。而智能体 RL 中,策略被嵌入到一个更大的工具套件里——工具服务器、浏览器、终端、搜索引擎、模拟器、执行沙箱、API 层、记忆系统、编排框架。环境不再是静态验证器,它本身就是训练系统的一部分。

这带来一个新的系统性需求:训练和推理必须更干净地解耦。 没有这个解耦,rollout 吞吐量会崩溃。以一个编码智能体为例:它生成的代码需要在真实测试套件中执行,推理端等待执行反馈而阻塞,训练端因缺少完成的轨迹而饥饿,整个流水线的 GPU 利用率远低于经典推理 RL 的预期。工具延迟、部分可观测性、有状态环境会放大这些低效。

环境本身变成了一流的研究产物。 SFT 时代痴迷于数据多样性,智能体时代应该痴迷于环境质量:稳定性、真实性、覆盖率、难度、状态多样性、反馈丰富度、抗利用性、rollout 生成的可扩展性。环境构建已经开始从副产品变成真正的创业品类。

下一个前沿:更可用的思考

智能体思考很可能成为主导形式,甚至最终取代大部分旧式静态独白推理——那种试图用无限拉长文本来弥补缺乏交互的过度冗长的内部轨迹。即使面对极难的数学或编码任务,一个真正先进的系统也应该有权搜索、模拟、执行、检查、验证、修订。目标是稳健且高效地解决问题。

最大的挑战是 reward hacking(奖励欺骗)。模型一旦获得有意义的工具访问权,奖励欺骗就变得危险得多:有搜索能力的模型可能在 RL 训练中直接查找答案;编码智能体可能利用仓库中的未来信息、滥用日志、发现使任务无效的捷径。带有隐藏泄漏的环境可以让策略看起来超人类,实际上却在训练它作弊。

下一波严肃的研究瓶颈很可能来自环境设计、评估器鲁棒性、反作弊协议,以及策略与世界之间更有原则的接口。但方向是清晰的:工具赋能的思考比孤立思考更有用,也更有可能真正提升生产力。

智能体思考还意味着工具套件工程将变得核心。核心智能将越来越多地来自多智能体的组织方式:一个规划和路由工作的编排器、作为领域专家的专业智能体、执行更窄任务的子智能体——它们帮助控制上下文、避免污染、保持不同推理层级之间的分离。

从训练模型到训练智能体,从训练智能体到训练系统。

竞争优势的迁移

推理时代的竞争优势来自更好的 RL 算法、更强的反馈信号、更可扩展的训练流水线。智能体时代的竞争优势将来自更好的环境、更紧密的训练-服务集成、更强的工具套件工程,以及闭合模型决策与决策后果之间循环的能力。

“好的思考”的定义也在变——不再是最长或最可见的推理轨迹,而是在真实世界约束下最能维持有效行动的那一条。



相关内容

上一篇
Harness Engineering:2026 年最重要的 AI 工程技能不是写代码,是设计缰绳
下一篇
一个西方 VC 在中国 AI 生态摸底两周后的观察