这是一篇由 Qwen 团队成员 Junyang Lin 撰写的长文,探讨了 AI 模型从单纯的“推理(Reasoning)”向“智能体式行动思考(Agentic Thinking)”演进的趋势。
以下是该文章的完整中文翻译:
从“推理(Reasoning)”思维到“智能体(Agentic)”思维
作者:Junyang Lin (@JustinLin610)
过去两年重塑了我们评估模型的方式以及对它们的期望。OpenAI 的 o1 表明“思考”可以成为一种一等能力,是你可以专门去训练并提供给用户的能力。DeepSeek-R1 则证明了这种推理风格的后训练(post-training)是可以在原始实验室之外被复现并扩展的。OpenAI 将 o1 描述为一个通过强化学习(RL)训练而学会“在回答前先思考”的模型。DeepSeek 则将 R1 定位为一个足以与 o1 竞争的开源推理模型。
那个阶段非常重要。但在 2025 年上半年,业界的主旋律几乎全是“推理式思考”:如何让模型在推理阶段投入更多算力,如何用更强的奖励信号去训练它们,以及如何暴露或控制这些额外的推理工作量。现在的问题是:下一步是什么?我认为答案是**“智能体式思考(agentic thinking)”:为了行动而思考,在与环境互动的过程中思考,并根据来自现实世界的反馈不断更新计划。**
1. o1 和 R1 的崛起到底教会了我们什么
第一波推理模型教会了我们:如果想在语言模型中扩展强化学习,我们需要确定性、稳定且可扩展的反馈信号。数学、代码、逻辑以及其他可验证的领域成为了核心,因为在这些场景下的奖励信号比通用的偏好监督要强得多。它们让 RL 能够针对“正确性”而非“合理性(看着像对的)”进行优化。这也让基础设施变得至关重要。
一旦模型被训练得能够在更长的轨迹中进行推理,RL 就不再只是监督微调(SFT)之上的一个轻量级附加组件了。它变成了一个系统工程问题。你需要大规模地进行 rollout(轨迹展开)、高吞吐量的验证、稳定的策略更新和高效的采样。推理模型的出现,与其说是一个模型层面的故事,不如说是一个基础设施层面的故事。OpenAI 将 o1 描述为一条通过 RL 训练的推理产品线,而 DeepSeek R1 后来进一步强化了这一方向,展示了基于推理的 RL 需要多少专门的算法和基础设施工作。这是第一个重大转变:从扩展预训练,转向扩展针对推理的后训练。
2. 真正的问题从来都不只是“合并思考与指令”
在 2025 年初,我们 Qwen 团队中的许多人心中都有一个宏大的愿景。理想的系统应该能将“思考模式”和“指令模式”统一起来。它将支持可调节的推理力度,类似于低/中/高推理设置。更好的是,它能根据提示词和上下文自动推断出合适的推理量,从而让模型自己决定何时立即回答,何时多想一会儿,何时应该在一道真正的难题上投入大量计算。
在概念上,这是正确的方向。Qwen3 就是公开尝试中最清晰的例子之一。它引入了“混合思考模式”,在同一个模型家族中同时支持思考和非思考行为,强调了可控的思考预算,并描述了一个四阶段的后训练 pipeline,其中明确包含了在长思维链冷启动和推理 RL 之后的“思考模式融合”。
但“合并”说起来容易,做起来难。最难的部分在于数据。当人们谈论合并思考与指令模式时,他们通常首先想到的是模型端的兼容性。但更深层次的问题是,这两种模式的数据分布和行为目标有着本质的区别。
一个强大的指令模型,其奖励通常来自于:直接、简洁、遵守格式、以及在重复性高吞吐的企业任务中的低延迟。而一个强大的思考模型,其奖励来自于:在难题上消耗更多 token、保持连贯的中间结构、探索不同的路径,并保留足够的内部计算量以实质性地提高最终的正确率。
这两种行为特征是互相拉扯的。如果合并的数据没有经过精心梳理,结果往往是两头不讨好:“思考”行为会变得嘈杂、臃肿或不够果断,而“指令”行为则会变得不够干脆、不够可靠,并且成本比商业用户实际想要的要高。
在实践中,“分离”依然具有吸引力。在 2025 年晚些时候,继 Qwen3 最初的混合架构之后,2507 产品线发布了截然不同的 Instruct(指令)和 Thinking(思考)更新,包括各自独立的 30B 和 235B 版本。将两条线分开,让团队能够更干净利落地专注于解决每种模式各自的数据和训练问题。
其他实验室选择了相反的路线。Anthropic 公开主张采用一种集成的模型哲学,Claude 3.7 Sonnet 被作为一个混合推理模型推出。GLM-4.5 和 DeepSeek V3.1 后来也在“思考与非思考”混合推理中走向了类似的方向。
关键问题在于这种“合并”是否是有机的。如果思考和指令仅仅是共存在一个权重文件里,但表现得就像两个被尴尬缝合在一起的人格,那么产品体验依然是不自然的。一个真正成功的合并需要一个平滑的推理发力区间。模型应该能够表达出多个层次的努力程度,并且最好能够自适应地做出选择。
3. 为什么 Anthropic 的方向是一次有用的纠偏
Anthropic 围绕 Claude 3.7 和 Claude 4 的公开宣传是非常克制的。他们强调的是集成式推理、用户可控的思考预算、真实世界的任务、代码质量,以及后来在长时间思考过程中使用工具的能力。
生成一段更长的推理轨迹,并不会自动让模型变得更聪明。在许多情况下,过多可见的推理过程标志着算力分配的低效。Anthropic 的发展轨迹暗示了一种更加严谨的观点:**思考应该由目标工作负载来塑造。**如果目标是编程,那么思考应该有助于代码库导航、计划制定、任务拆解、错误恢复以及工具编排。如果目标是智能体工作流,那么思考应该在长周期内提高执行质量,而不是生成看起来很厉害的中间散文。
这种对目标实用性的强调指向了一个更宏大的趋势:**我们正在从“训练模型”的时代,走向“训练智能体”的时代。**智能体是一个能够制定计划、决定何时行动、使用工具、感知环境反馈、修改策略,并能在长周期内持续运作的系统。它是由与世界的闭环交互来定义的。
4. “智能体式思考”到底意味着什么
智能体式思考是一个不同的优化目标。推理式思考通常通过给出最终答案之前的内部深思熟虑的质量来评判。而智能体式思考,关注的是模型在与环境互动的过程中,能否不断取得进展。
核心问题从“模型能思考足够长的时间吗?”转变为了“模型的思考方式能维持有效的行动吗?”。智能体式思考必须处理几个纯推理模型大体上可以避开的问题:
- 决定何时停止思考并采取行动
- 选择调用哪个工具以及调用的顺序
- 结合来自环境的嘈杂或不完整的观察结果
- 在失败后修改计划
- 在多次轮次和多次工具调用中保持连贯性
智能体式思考,本质上是一个通过行动来推理的模型。
5. 为什么智能体 RL 的基础设施更难
一旦目标从解决 benchmark 问题转向解决交互式任务,RL 的技术栈也就随之改变了。在智能体 RL 中,策略(policy)被嵌入到一个更大的“运行框架(harness)”中:工具服务器、浏览器、终端、搜索引擎、执行沙箱等。环境不再是一个静态的验证器;它是训练系统的一部分。
这带来了一个新的系统要求:训练和推理必须更加干净地解耦。如果没有这种解耦,rollout 的吞吐量就会崩溃。加上工具延迟、部分可观测性和有状态的环境,这些低效会被进一步放大。
环境本身也成为了一流的研究产物。在 SFT 时代,我们痴迷于数据的多样性。在智能体时代,我们应该痴迷于环境的质量:稳定性、真实性、覆盖率、难度、状态的多样性、反馈的丰富性以及抗漏洞利用能力。
6. 下一个前沿是“更有用的思想”
我的预期是,智能体式思考将成为主导的思考形式。我认为它最终可能会取代旧有的大部分“静态独白”版本的推理思考:那种通过吐出越来越多的文本,来试图弥补缺乏交互的内部轨迹。即便是面对非常困难的数学或编程任务,一个真正先进的系统也应该有权去搜索、模拟、执行、检查、验证和修改。
训练此类系统最难的挑战是奖励破解(reward hacking)。一旦模型获得了有意义的工具访问权限,奖励破解就会变得危险得多。一个带有搜索功能的模型,可能会学会在 RL 期间直接去搜索答案。一个编程智能体可能会滥用日志,或者发现能让任务无效化的捷径。我们可以预见,下一个严重的研究瓶颈将来自环境设计、评估器的鲁棒性、防作弊协议以及策略与世界之间更有原则的接口。
智能体式思考也将意味着 Harness 工程(运行框架工程)。核心智能将越来越多地来源于多个智能体是如何组织的:一个负责规划和路由工作的编排器,充当领域专家的专用智能体,以及执行更窄范围任务的子智能体。未来是从训练模型转向训练智能体,再从训练智能体转向训练系统。
结论
推理浪潮的第一阶段确立了一个重要的事实:当反馈信号可靠且基础设施能够支撑时,在语言模型之上叠加强化学习,可以产生质量上更强的认知能力。
更深层的转变,则是从“推理思考”到“智能体思考”的跨越:**从为了思考得更久,变成为了行动而思考。**训练的核心对象已经转移。它变成了“模型加环境”的系统。这改变了哪些研究产物最重要:模型架构和训练数据当然重要,但环境设计、rollout 基础设施、评估器的鲁棒性以及多个智能体协调的接口同样关键。
它同时也改变了竞争优势的来源。在推理时代,优势来自于更好的 RL 算法、更强的反馈信号和更具扩展性的训练 pipeline。在智能体时代,优势将来自于更好的环境、更紧密的“训练-服务”集成、更强的 Harness 工程,以及能够将“模型的决策”与“这些决策产生的后果”闭环连接起来的能力。
Comments