从推理思考到智能体思考

From “Reasoning” Thinking to “Agentic” Thinking 是 Qwen 团队林俊阳的一篇长文，复盘了从 o1/R1 到 agentic thinking（智能体思考）的演进脉络，核心判断是：

AI 正在从”训练模型”转向”训练智能体”——竞争优势的来源也随之改变。

o1 和 R1 真正教会我们的事

过去两年，OpenAI 的 o1 证明了”思考”可以被训练成一种一等公民能力，DeepSeek-R1 则证明推理式后训练可以在原始实验室之外被复现和扩展。这一波推理模型的核心教训有两条：

第一，RL 需要确定性的反馈信号。 数学、代码、逻辑等可验证领域之所以成为核心训练场，是因为它们提供的奖励信号远强于泛化的偏好监督——RL 可以优化”正确性”而非”听起来像对的”。

第二，推理模型本质上是个基础设施问题。 一旦模型被训练在更长的轨迹上推理，RL 就不再是 SFT 之后的轻量附加，而是需要大规模 rollout、高吞吐验证、稳定策略更新、高效采样的系统工程。推理模型的崛起，基建故事和建模故事各占一半。

思考模式和指令模式的合并之难

2025 年初，Qwen 团队的设想是：理想系统应该统一 thinking（思考）和 instruct（指令）两种模式，支持可调推理力度，甚至能根据提示自动判断该花多少算力。Qwen3 是这个方向最清晰的公开尝试——引入混合思考模式，支持可控思考预算，设计了四阶段后训练流水线。

概念上没问题，执行起来很痛。核心矛盾在数据分布：

强指令模型被奖励直接、简洁、格式合规、低延迟，适合企业高频场景（改写、标注、模板化支持、结构化提取）
强思考模型被奖励在难题上花更多 token、维护连贯的中间结构、探索替代路径

这两种行为特征互相拉扯。数据混合做不好，结果是两头都平庸：思考行为变得噪声大、冗长、不果断，指令行为变得不干脆、不可靠、更贵。

Qwen 的实际路线最终走向分离——2507 版本分别发布了 Instruct 和 Thinking 两条独立线，包括 30B 和 235B 变体。大量商业客户仍然需要高吞吐、低成本、高可控的纯指令行为，合并对他们并不是优势。

Anthropic 走了相反的路。Claude 3.7 Sonnet 作为混合推理模型发布，用户可以选择普通响应或扩展思考，API 端可以设定思考预算。Anthropic 明确主张推理应是集成能力而非独立模型。Claude 4 进一步允许推理过程中穿插工具调用。DeepSeek V3.1 和 GLM-4.5 后来也转向了类似的混合方向。

关键问题不是”合不合”，而是合并是否有机：如果思考和指令只是共存于一个 checkpoint 里但表现得像两个别扭缝合的人格，产品体验仍然不自然。真正成功的合并需要一个平滑的推理力度光谱——模型能在多个力度级别间表达和自适应切换。

Anthropic 的方向为什么是个有用的纠偏

Anthropic 在 Claude 3.7 和 Claude 4 上的公开定位很克制：强调集成推理、用户可控思考预算、真实世界任务、编码质量，以及在扩展思考期间使用工具的能力。

这背后有一个重要洞察：更长的推理轨迹并不自动意味着更聪明。 很多时候，过度可见的推理恰恰是分配失败的信号——模型在用同样冗长的方式推理一切，说明它无法区分优先级、无法压缩、无法行动。

Anthropic 的轨迹指向一种更有纪律的观点：思考应该被目标工作负载塑造。如果目标是写代码，思考就应该服务于代码库导航、规划、分解、错误恢复和工具编排；如果目标是智能体工作流，思考就应该改善长时间跨度上的执行质量，而不是生产漂亮的中间文字。

Agentic Thinking 到底是什么

Agentic thinking（智能体思考）的优化目标和推理思考根本不同。推理思考通常以最终答案的正确性来衡量：能不能解题、写证明、通过 benchmark。智能体思考关心的是：模型能否在与环境交互的过程中持续推进。

核心问题从”模型能不能想得够久”变成了”模型能不能以维持有效行动的方式思考”。智能体思考必须处理几件纯推理模型基本可以回避的事情：

判断何时停止思考、开始行动
选择调用哪个工具、以什么顺序
吸收来自环境的嘈杂或不完整观测
失败后修订计划
跨多轮、多次工具调用维持连贯性

一句话：智能体思考是通过行动来推理的模型。

智能体 RL 基础设施为什么更难

一旦目标从解 benchmark 题转向解交互式任务，整个 RL 技术栈都要变。推理 RL 的 rollout 基本是自包含轨迹加上相对干净的验证器。而智能体 RL 中，策略被嵌入到一个更大的工具套件里——工具服务器、浏览器、终端、搜索引擎、模拟器、执行沙箱、API 层、记忆系统、编排框架。环境不再是静态验证器，它本身就是训练系统的一部分。

这带来一个新的系统性需求：训练和推理必须更干净地解耦。 没有这个解耦，rollout 吞吐量会崩溃。以一个编码智能体为例：它生成的代码需要在真实测试套件中执行，推理端等待执行反馈而阻塞，训练端因缺少完成的轨迹而饥饿，整个流水线的 GPU 利用率远低于经典推理 RL 的预期。工具延迟、部分可观测性、有状态环境会放大这些低效。

环境本身变成了一流的研究产物。 SFT 时代痴迷于数据多样性，智能体时代应该痴迷于环境质量：稳定性、真实性、覆盖率、难度、状态多样性、反馈丰富度、抗利用性、rollout 生成的可扩展性。环境构建已经开始从副产品变成真正的创业品类。

下一个前沿：更可用的思考

智能体思考很可能成为主导形式，甚至最终取代大部分旧式静态独白推理——那种试图用无限拉长文本来弥补缺乏交互的过度冗长的内部轨迹。即使面对极难的数学或编码任务，一个真正先进的系统也应该有权搜索、模拟、执行、检查、验证、修订。目标是稳健且高效地解决问题。

最大的挑战是 reward hacking（奖励欺骗）。模型一旦获得有意义的工具访问权，奖励欺骗就变得危险得多：有搜索能力的模型可能在 RL 训练中直接查找答案；编码智能体可能利用仓库中的未来信息、滥用日志、发现使任务无效的捷径。带有隐藏泄漏的环境可以让策略看起来超人类，实际上却在训练它作弊。

下一波严肃的研究瓶颈很可能来自环境设计、评估器鲁棒性、反作弊协议，以及策略与世界之间更有原则的接口。但方向是清晰的：工具赋能的思考比孤立思考更有用，也更有可能真正提升生产力。

智能体思考还意味着工具套件工程将变得核心。核心智能将越来越多地来自多智能体的组织方式：一个规划和路由工作的编排器、作为领域专家的专业智能体、执行更窄任务的子智能体——它们帮助控制上下文、避免污染、保持不同推理层级之间的分离。

从训练模型到训练智能体，从训练智能体到训练系统。

竞争优势的迁移

推理时代的竞争优势来自更好的 RL 算法、更强的反馈信号、更可扩展的训练流水线。智能体时代的竞争优势将来自更好的环境、更紧密的训练-服务集成、更强的工具套件工程，以及闭合模型决策与决策后果之间循环的能力。

“好的思考”的定义也在变——不再是最长或最可见的推理轨迹，而是在真实世界约束下最能维持有效行动的那一条。