分类论文笔记下的文章

一、论文基本信息

标题： Tongyi DeepResearch Technical Report

作者： Tongyi DeepResearch Team（通义深度研究团队），来自阿里巴巴集团的通义实验室

发表平台： arXiv预印本

发表日期： 2025年11月5日（最新版本）

摘要核心内容：

研究目标： 开发一个专门用于长时域（long-horizon）、深度信息搜寻研究任务的智能体大语言模型（agentic large language model）
核心方法： 通过端到端训练框架，结合智能体中期训练（agentic mid-training）和智能体后训练（agentic post-training）
数据策略： 设计高度可扩展的全自动数据合成管线（data synthesis pipeline），无需人工标注
模型规模： 总参数量305亿，但每个token只激活33亿参数（使用了MoE架构，mixture-of-experts）
性能表现： 在多个深度研究基准测试上达到最先进水平
开源承诺： 开源模型、框架和完整解决方案

二、整体概括

研究背景与动机

问题背景： 随着人工智能向通用人工智能（AGI）迈进，深度研究智能体（Deep Research agents）成为一种有前景的范式，能够增强甚至解放人类的智力生产力。深度研究是一种新的智能体能力，能够在互联网上自主进行多步推理和信息搜寻，完成复杂的研究任务。这类任务原本需要人类花费数小时完成，但现在可以在数十分钟内完成。

现存问题：

封闭性问题： 大多数深度研究系统都是闭源的（closed-source），其中间研究过程无法访问，阻碍了学术界的研究和进步
方法论缺失： 社区缺乏系统性方法论和可完全开源共享的公开模型
人工标注困境： 研究级问题和智能体轨迹的人工标注极其耗时且成本高昂

创新动机： 本研究旨在赋予大语言模型自主研究能力（autonomous research capabilities agency），即跨越扩展的动作序列和多样化信息源进行规划、搜索、推理和知识综合的能力。通过开源Tongyi DeepResearch，团队希望开启开源AI研究者时代。

核心贡献与主要发现

主要贡献：

端到端智能体训练范式： 提出了统一智能体中期训练和智能体后训练的端到端训练框架，为深度推理和信息搜寻行为奠定可扩展基础
全自动数据合成管线： 设计了完全自动化、高度可扩展的数据合成管线，消除人工标注的同时生成多样化、高质量的智能体轨迹
定制化环境构建： 为每个训练阶段构建了特定于阶段的定制环境，依托强大的基础设施提供一致的交互体验
SOTA性能： 在多个深度研究基准测试上达到最先进性能，包括：
- Humanity's Last Exam: 32.9
- BrowseComp: 43.4
- BrowseComp-ZH: 46.7
- WebWalkerQA: 72.2
- GAIA: 70.9
- xbench-DeepSearch: 75.0
- FRAMES: 90.6
参数效率： 总参数305亿，但每个token仅激活33亿参数，在保持高性能的同时实现了显著的计算效率

主要发现图示说明： 论文首页的Figure 1展示了Tongyi DeepResearch在8个基准测试上与其他前沿模型的性能对比。该图采用柱状图形式，紫色条代表Tongyi DeepResearch，灰色条代表其他竞争模型。可以看出，Tongyi DeepResearch在大部分基准上都位居榜首或接近榜首，充分验证了其方法的有效性。

三、方法（核心技术与实现细节）

3.1 形式化定义

智能体的三个基本组件：

在每个时间步 $t$，Tongyi DeepResearch的运行由三个基本组件定义：

思考（Thought, $\tau_t$）： 智能体的内部认知过程，包括分析当前上下文、从记忆中回忆信息、规划后续步骤以及进行自我反思以调整策略
动作（Action, $a_t$）： 智能体执行的外部操作，用于与环境交互。Tongyi DeepResearch配备了多样化的工具，定义了其动作空间：
- Search（搜索）： 网络搜索
- Visit（访问）： 访问网页
- Python Interpreter（Python解释器）： 执行Python代码
- Google Scholar（谷歌学术）： 学术文献检索
- File Parser（文件解析器）： 解析本地文件
在轨迹中，中间动作 $a_t$（$t < T$）是工具调用，而最终动作 $a_T$ 是为用户生成的深度报告
观察（Observation, $o_t$）： 执行动作后从环境接收的反馈，用于更新智能体的内部状态并为下一步思考提供信息

ReAct范式：

Tongyi DeepResearch基于经典的ReAct框架（Reasoning and Acting），该框架将推理和行动协同结合。在此范式下，智能体以交替方式生成推理轨迹（Thought）和后续动作（Action）。这个过程形成一条轨迹 $H_T$：

$$H_T = (\tau_0, a_0, o_0, \ldots, \tau_i, a_i, o_i, \ldots, \tau_T, a_T)$$

其中 $a_T$ 代表给定任务的最终答案。在任意步骤 $t \leq T$，智能体的策略 $\pi$ 基于之前所有交互的历史 $H_{t-1}$ 生成当前的思考 $\tau_t$ 和动作 $a_t$：

$$\tau_t, a_t \sim \pi(\cdot|H_{t-1})$$

为什么选择ReAct？ 尽管已经出现了更复杂的单智能体和多智能体范式，但选择ReAct是基于简洁性和基本原则的深思熟虑决定。这一决策受到"The Bitter Lesson"（痛苦教训）的启发，该理论指出，利用可扩展计算的通用方法最终会胜过依赖复杂人工工程知识和复杂设计的方法。

上下文管理（Context Management）：

长时域任务的执行受到智能体上下文窗口有限长度的根本性约束。为缓解上下文溢出风险并确保任务聚焦，论文提出了基于马尔可夫状态重构（Markovian state reconstruction）的动态上下文管理机制。

在这个框架中，智能体不依赖于完整历史，而是在每个步骤 $t$，基于一个战略性重构的工作空间，该工作空间仅包含关键要素：

问题 $q$
作为压缩记忆的演化报告 $S_t$
来自最后一次交互的即时上下文（$a_t$ 和 $o_t$）

对于每个步骤 $0 < t < T$，这个核心更新过程可以形式化为：

$$S_t, \tau_{t+1}, a_{t+1} \sim \pi(\cdot|S_{t-1}, a_t, o_t)$$

这种上下文管理范式至关重要，它不仅防止上下文窒息，还通过要求智能体在每个步骤明确综合和优先处理信息来强制执行结构化推理。这种设计自然地与人类研究模式一致，在人类研究中，定期综合和反思对于保持连贯的长期调查至关重要。

3.2 整体训练流程

训练管线概述（如Figure 2所示）：

Tongyi DeepResearch从预训练基础模型Qwen3-30B-A3B-Base开始，通过端到端训练框架进行开发，该框架整合了智能体中期训练和后训练，实现了跨复杂任务的可扩展推理和信息搜寻。

训练管线包括：

Pre-training（预训练）： Qwen系列基础模型
Mid-training（中期训练）：
- Agentic CPT Stage 1（32K上下文长度）
- Agentic CPT Stage 2（128K上下文长度）
Post-training（后训练）：
- Agentic SFT（监督微调）
- Agentic RL（强化学习）

3.3 智能体中期训练

3.3.1 训练配置

Tongyi DeepResearch采用两阶段智能体持续预训练（Agentic Continual Pre-training, Agentic CPT）作为核心的中期训练阶段。这个阶段作为连接预训练模型和智能体后训练的关键桥梁。

主要目标：

为基础模型赋予强大的智能体行为归纳偏置（inductive bias）
同时保持广泛的语言能力

训练策略：

使用标准的下一个token预测损失函数（Next-Token Prediction loss）进行优化
第一阶段： 从32K上下文长度开始
第二阶段： 扩展到128K上下文长度，引入大量长序列（64K-128K）智能体行为数据
两个阶段都混入少量通用预训练数据，确保模型在获得专门智能体能力的同时不牺牲基础泛化能力

为什么需要中期训练？ 大多数通用基础模型通常缺乏智能体归纳偏置。它们在互联网爬取的纯文本上进行预训练，然后在指令跟随数据上进行后训练。这些数据集缺乏研究级问题和智能体行为，导致模型在后训练阶段同时学习智能体能力和对齐，可能导致次优结果和固有的优化冲突。中期训练为预训练基础模型赋予了大量智能体先验知识，从而弥合了预训练和智能体后训练之间的差距。

3.3.2 大规模智能体行为数据合成

数据合成框架（如Figure 3所示）：

在智能体CPT中，团队跨智能体工作流的完整生命周期合成数据。典型的智能体工作流从一个问题开始，通过反思和动作迭代循环，最终收敛到最终解决方案。

为了全面捕获这个过程，团队为构成智能体运行循环的关键步骤合成数据：

Question Synthesis（问题合成）
Planning Action（规划动作）
Reasoning Action（推理动作）
Decision-Making Action（决策动作）

（1）大规模多样式问题合成：

基于持续更新的开放世界知识，团队构建了一个以实体为锚点的开放世界记忆（entity-anchored open-world memory）。这个记忆将各种真实世界知识源（如网络爬取数据和智能体交互轨迹）整合到实体及其相关知识的结构化表示中。

在此基础上，团队采样实体及其相关知识来生成嵌入特定行为模式要求的多样化问题，例如：

多跳推理问题（multi-hop reasoning questions）
数值计算问题（numerical computation questions）

（2）规划动作：

规划指的是问题分解和首步动作预测。一个关键洞察是：规划准确性与智能体能否成功完成任务高度相关。

方法：

使用开源模型分析、分解并预测合成问题的初始动作
利用问题构建中使用的实体和相关知识作为拒绝采样（rejection sampling）的基础，确保高质量的规划输出

（3）推理动作：

对异构数据的逻辑推理和知识整合是智能体解决复杂任务的基础。当外部工具返回大量非结构化响应时，模型能否从噪声中提取关键知识并构建连贯的推理路径直接决定任务结果。

方法：

给定问题及其依赖知识，引导大模型通过两阶段过程生成完整推理链
基于推理长度和答案一致性的双重过滤机制确保质量

（4）决策动作：

智能体的每一步思考和动作本质上都是一个隐式决策过程。具体来说，每个决策点包含多个潜在的推理和动作路径，智能体必须从中选择最有前景的解决方案。

方法：

显式建模这个决策过程
首先，基于现有演示轨迹，彻底探索每个步骤的可行动作空间
其次，将原始轨迹重构为多步决策序列，同时保留原始决策选择

（5）通过环境扩展的通用函数调用数据合成：

为了增强模型的通用智能体能力，团队通过环境扩展系统地扩大函数调用数据。函数调用能力的广度与智能体训练的环境多样性密切相关。

设计原则：

智能体的核心在于其环境交互能力
每个环境实例化为一个读写数据库
设计可扩展框架，自动构建完全模拟的异构环境，系统地拓宽函数调用场景空间

生成的数据被纳入模型的中期训练阶段。

3.4 智能体后训练

后训练管线包括三个阶段：

数据合成
用于冷启动的监督微调
智能体强化学习

3.4.1 高质量数据合成

数据合成管线（如Figure 4所示）：

团队开发了一个端到端的合成数据生成解决方案，用于生成复杂、高不确定性和超人类水平的问答对。这个完全自动化的过程无需人工干预即可构建超人质量数据集，旨在推动智能体性能的边界。

三步流程：

（1）图构建（Graph Construction）： 通过随机游走（random walks）构建高度互连的知识图谱，利用网络搜索获取相关知识，以及来自真实世界网站的同构表格（isomorphic tables），确保真实的信息结构。

（2）子图采样（Subgraph Sampling）： 对子图和子表进行采样，生成初始问题和答案。

（3）不确定性注入（Uncertainty Injection）： 关键步骤是战略性地增加问题内的不确定性以提高难度。这种实用方法基于完整的理论框架，其中团队将问答难度形式化建模为实体关系上的一系列可控"原子操作"（例如，合并具有相似属性的实体），允许系统地增加复杂性。

理论创新： 为了进一步减少组织化信息结构与问答推理结构之间的不一致，实现更可控的推理难度和结构扩展，团队提出了基于集合论的信息搜寻问题形式化建模。通过这种形式化，团队开发了以受控方式扩展问题的智能体，并最小化推理捷径和结构冗余，从而进一步提高问答质量。此外，这种形式化建模还允许高效验证问答正确性，有效解决了验证后训练合成信息搜寻数据的挑战。

PhD级研究问题生成： 团队还开发了一个自动化数据引擎，用于扩展PhD级研究问题的生成。从多学科知识库开始，它创建需要多源推理的种子问答对。这些种子经历迭代复杂性升级，其中配备相应工具的问题制作智能体逐步扩展范围和抽象。每次迭代都细化和复合先前的输出，实现任务难度的系统性和可控升级。

3.4.2 用于冷启动的监督微调

智能体后训练管线的初始阶段是监督微调（SFT）阶段，旨在在强化学习之前为基础模型配备强大的初始策略。

数据来源： 从合成的高质量问答数据开始，团队获得了涵盖完整思考过程和工具响应的训练轨迹，这些轨迹由高性能开源模型生成，然后经过严格的拒绝采样协议。这个综合过滤过程保证只保留表现出多样化问题解决模式的高质量轨迹。

混合训练范式：

冷启动阶段训练利用两种不同形式的数据来增强模型的鲁棒性和泛化能力：

ReAct模式： 训练样本以历史状态 $H_t$ 作为输入，输出当前步骤的对应思考 $\tau_i$ 和工具调用 $a_i$
上下文管理模式： 训练样本以上一步的轨迹摘要 $S_{t-1}$、工具调用 $a_{i-1}$ 和工具响应 $o_{i-1}$ 作为输入，输出当前步骤的轨迹摘要、思考 $\tau_i$ 和工具调用 $a_i$

上下文管理模式数据特别增强了智能体在状态分析和战略决策方面的能力，因为它要求模型将复杂观察综合成连贯摘要，同时在扩展轨迹中保持任务聚焦。

两阶段训练策略（基于上下文长度）：

第一阶段： 上下文长度设置为40K，训练数据包括上下文长度短于40K的ReAct模式样本，以及所有上下文管理模式样本（因为它们都在40K以内）
第二阶段： 上下文长度扩展到128K，训练数据包括上下文长度在40K到128K之间的ReAct模式样本，以及少量40K数据以保持稳定性

3.4.3 智能体强化学习

强化学习框架（如Figure 5所示）：

为了推进模型在复杂网络环境中更强大、更可靠的规划和搜索能力，团队应用了智能体RL框架。在这个框架中，模型生成完整的任务尝试（"rollout"），如果其最终答案与真实答案匹配，则获得奖励（RLVR，Reinforcement Learning from Verification Reward）。

在整个智能体RL过程中，模型持续与环境交互（模拟或真实世界），通过每次迭代迭代地改进其策略，并反过来使用改进的策略来策划新的、更高质量的训练数据集。

（1）真实世界环境（Real-world Environment）：

智能体的工具包是一个复杂系统，集成了几个专门工具：

Search（搜索）
Visit（访问）
Python Interpreter（Python解释器）
Google Scholar（谷歌学术）
File Parser（文件解析器）

挑战： 外部API的固有波动性，包括高延迟、彻底失败和不一致的返回，威胁到训练轨迹的完整性。这种数据污染使得几乎不可能诊断性能问题，模糊了糟糕结果是由智能体策略的弱点还是环境不稳定性造成的。

解决方案：统一沙盒（Unified Sandbox） 为确保智能体训练和评估期间的可靠工具使用，团队开发了一个统一沙盒。这个接口围绕一个中央调度和管理层构建，协调每个工具调用。对于每个工具，团队实现了强大的并发控制和容错机制，例如：

主动QPS速率约束
结果缓存
自动超时和重试协议
对非关键故障的优雅服务降级
无缝故障转移到备份数据源（例如，备份搜索API）

这种设计将工具调用抽象为确定性和稳定的接口，从而将训练循环与真实世界的随机性隔离，同时显著降低运营成本。

（2）模拟环境（Simulated Environment）：

挑战： 直接利用真实世界网络环境API存在许多实际问题（例如，每秒查询数(QPS)限制显著降低开发效率并在早期消融研究中损害可靠性）。

解决方案：离线Wiki环境 团队首先基于2024年维基百科数据库构建离线环境，并开发一套本地RAG工具来模拟网络环境。然后重用数据合成管线，专门为这个离线环境创建高质量、结构复杂的问答。

这提供了一个低成本、高效率且完全可控的平台，能够进行高频、快速实验，从而大大加速开发和迭代过程。

（3）在线异步Rollout框架（On-Policy Asynchronous Rollout Framework）：

挑战： 智能体rollout的迭代性质需要与环境进行大量交互，这会造成显著的瓶颈，减慢整个RL训练过程。

解决方案：步级异步RL训练循环 团队基于rLLM框架实现了自定义的步级异步RL训练循环。解决方案使用两个独立的异步在线服务器：

一个用于模型推理
另一个用于工具调用

集中式交互处理器处理两者的输出，将反馈格式化为统一的消息列表。这种架构允许多个智能体实例与环境并行交互，每个实例独立完成其rollout。

（4）RL训练算法：

团队的RL算法是GRPO的定制适配版本，目标函数为：

$$J(\theta) = \mathbb{E}*{(q,y)\sim D,{H_i}*{i=1}^G\sim\pi_{\theta_{\text{old}}}(\cdot|\text{context})}\left[\frac{1}{\sum_{i=1}^G|H_i|}\sum_{i=1}^G\sum_{j=1}^{|H_i|}\min\left{r_{i,j}(\theta)\hat{A}*{i,j}, \text{clip}\left(r*{i,j}(\theta), 1-\varepsilon_{\text{low}}, 1+\varepsilon_{\text{high}}\right)\hat{A}_{i,j}\right}\right]$$

其中：

$(q, y)$ 是问答对
$r_{i,j}(\theta)$ 是重要性采样比率（对于严格的在线策略训练保持为1.0）
$\hat{A}_{i,j}$ 是token $j$ 处的优势估计器：

$$r_{i,j}(\theta) = \frac{\pi_\theta(H_{i,j}|\text{context})}{\pi_{\theta_{\text{old}}}(H_{i,j}|\text{context})}, \quad \hat{A}*{i,j} = R_i - \text{mean}({R_i}*{i=1}^G)$$

关键设计决策：

严格在线策略： 轨迹始终使用最新策略采样，确保学习信号始终与模型当前能力相关
纯0/1奖励信号： 仅基于答案正确性
无格式奖励： 不包括格式奖励（例如，格式正确性0.1），因为前面的冷启动阶段确保模型已经熟悉所需的输出格式
Token级策略梯度损失： 在训练目标中应用
Clip-higher策略： 鼓励更多探索
Leave-one-out策略： 进一步降低优势估计中的方差
负样本过滤： 有选择地排除某些负样本（例如，因超出长度限制而未产生最终答案的样本），以提高训练稳定性并防止策略崩溃

核心洞察： 通过实验，团队得出一个关键洞察：智能体RL的成功更多地取决于数据质量和训练环境的稳定性，而不是使用的特定算法。因此，团队将精力集中在设计稳定的环境和策划高质量数据上，主要为了稳定训练过程而对算法本身进行少量必要修改。

（5）自动数据策划（Automatic Data Curation）：

团队实时优化数据，根据训练动态进行指导，通过自我探索泛化到分布外场景。

优化流程：

初始化： 从大型数据集 $D$ 开始，使用初始SFT模型作为基线策略，为每个问题采样多个解决方案尝试（rollout）
初始训练集创建： 创建初始训练集 $D'$，通过过滤掉模型始终失败或始终成功的问题，因为这些不会提供学习信号。这留下了一个聚焦于中等难度问题的子集
动态监控： 在RL训练期间，通过最新rollout持续监控 $D'$ 中的问题，查看它们对于改进的策略模型是否变得过于简单
并行采样： 同时，一个独立过程使用策略模型的中间检查点从整个原始数据集 $D$ 中采样，识别并收集对现在更强模型来说变得中等难度的新问题的备份池
数据刷新： 当训练达到一定步数或奖励停滞时，通过移除已掌握的问题并从备份池中纳入新的、有挑战性的问题来刷新活动训练集 $D'$

优势： 整个数据过滤和刷新管线独立运行，从不中断主RL训练循环。这种设计允许自动进化策略模型及其训练数据，确保持续高的训练效率和稳定性。

3.4.4 模型合并

模型合并策略：

团队在管线的最后阶段采用模型合并（model merging）。这种方法基于一个关键洞察：当不同的模型变体源自同一个预训练模型时，它们的参数可以通过平均或插值有效组合。

合并公式：

$$\theta_{\text{merged}} = \sum_k \alpha_k \cdot \theta^{(k)}, \quad \text{s.t. } \sum_k \alpha_k = 1, \alpha_k \geq 0$$

其中：

$\theta^{(k)}$ 代表第 $k$ 个模型变体的参数
$\alpha_k$ 是其对应的合并权重

实证效果： 这种插值策略不仅保留了每个贡献模型的核心优势，还使合并模型具备强大的泛化能力。在需要综合这些多样化能力的复杂场景中，合并模型在其各自优势领域的表现与最佳源模型相当，且无需额外的优化成本。

四、数据集与评估指标

4.1 评估基准数据集

论文在七个公开信息搜寻基准测试上评估Tongyi DeepResearch，涵盖长期推理和长时域工具使用：

（1）Humanity's Last Exam（人类最后的考试）

来源： Phan et al., 2025
规模： 2,154道纯文本问题
特点： 超难问题集，测试模型的极限推理能力
评估模型： 使用o3-mini作为评估器

（2）BrowseComp 和 BrowseComp-ZH

来源： Wei et al., 2025（英文版）；Zhou et al., 2025（中文版）
特点： 测试浏览智能体能力的简单但具挑战性的基准
评估模型： 使用GPT-4o-2024-08-06作为评判模型

（3）GAIA（通用AI助手基准）

来源： Mialon et al., 2023
特点： 测试通用AI助手能力
评估模型： 使用Qwen2.5-72B-Instruct作为评判模型

（4）xBench-DeepSearch 和 xbench-DeepSearch-2510

来源： Xbench Team, 2025
特点： 深度搜索能力评估
评估模型： 使用Gemini-2.0-Flash-001作为评判模型

（5）WebWalkerQA

来源： Wu et al., 2025b
特点： 测试在网络遍历中的问答能力
评估模型： 使用Qwen2.5-72B-Instruct作为评判模型

（6）FRAMES

来源： Krishna et al., 2025
特点： 检索增强生成统一评估

通用基准测试：

AIME25： 数学竞赛问题
HMMT25： 哈佛-MIT数学竞赛
SimpleQA： 知识型问题

4.2 评估指标与协议

主要评估指标：

Avg@3（3次平均）： 每个基准测试独立评估三次，报告平均性能作为主要指标
Pass@1（3次中的最佳结果）： 报告3次运行中的最佳结果
Pass@3： 报告3次尝试中的通过率

评估设置：

推理参数（固定）：
- Temperature = 0.85
- Repetition penalty = 1.1
- Top-p = 0.95
约束条件：
- 每个任务最多允许128次工具调用
- 上下文长度限制为128K tokens
评估时间： 所有结果在2025年9月16日获得（xbench-DeepSearch-2510除外，其在2025年10月28日评估）

为什么采用多次评估？ 由于智能体环境的动态和复杂性质，多次独立评估可以更准确地反映模型的稳定性和鲁棒性。

五、实验结果（数据解读与结果分析）

5.1 主要结果分析

整体性能（Table 1）：

Tongyi DeepResearch在几乎所有评估基准上都取得了最高分数，展示了在英文和中文任务上的强大泛化能力。具体来说：

与LLM-based ReAct智能体对比：
- 在Humanity's Last Exam上，Tongyi DeepResearch达到32.9，超过DeepSeek-V3.1的29.8和Claude-4-Sonnet的20.3
- 在BrowseComp上达到43.4，虽然略低于OpenAI o3的49.7，但显著超过其他开源模型
- 在中文BrowseComp-ZH上达到46.7，在开源模型中表现最佳
- 在WebWalkerQA上达到72.2，超过OpenAI o3的71.7
与DeepResearch智能体对比：
- 超过OpenAI DeepResearch、Gemini DeepResearch和Kimi Researcher等闭源系统
- 在xbench-DeepSearch上达到75.0，超过所有竞争对手
- 在FRAMES上达到90.6，显著领先
参数效率优势：
- 仅使用33亿激活参数（总参数305亿），实现了与更大模型相当甚至更好的性能
- 这证明了模型的高效性和可扩展性

关键洞察： Tongyi DeepResearch在开源深度研究智能体中树立了新的最先进水平，缩小甚至在某些情况下超越了前沿专有系统的性能，同时保持了卓越的可解释性和计算效率。

5.2 Heavy模式性能（测试时扩展）

Heavy模式设计（如Figure 6所示）：

为了进一步释放深度研究智能体的潜力，团队引入了Heavy模式，通过基于上下文管理范式的Research-Synthesis框架利用测试时扩展。

核心机制：

（1）并行研究阶段： 部署 $n$ 个并行智能体，每个都遵循上下文管理范式，但通过不同的工具使用和推理策略探索多样化的解决路径。每个智能体 $u$ 独立处理问题 $q$ 并产生最终报告和答案：

$$(S_T^u, \text{answer}_u) = \text{Agent}_u(q), \quad u \in [1, n]$$

其中 $S_T^u$ 代表智能体 $u$ 经过 $T$ 次迭代后的最终报告摘要，以压缩形式封装完整的推理轨迹。

（2）综合整合阶段： 综合模型整合所有并行发现以产生最终答案：

$$\text{answer}_{\text{final}} = \text{Synthesis}\left({(S_T^u, \text{answer}*u)}*{u=1}^n\right)$$

关键优势： 这种方法的关键优势在于上下文管理报告 $S_T^u$ 的压缩性质。与需要聚合完整轨迹的传统方法（仅2-3个智能体就可能超出上下文限制）不同，该方法使综合模型能够在可管理的上下文窗口内评估 $n$ 个多样化的解决策略。每个报告 $S_T^u$ 保留了基本的推理逻辑和发现，同时丢弃了冗余的中间步骤，从而实现了有效的测试时扩展。

性能提升：

如Figure 6所示，Heavy模式在以下基准上取得了最先进性能：

Humanity's Last Exam： 38.3%（相比标准模式的32.9%提升了5.4个百分点）
BrowseComp-ZH： 58.1%（相比46.7%提升了11.4个百分点）
BrowseComp： 58.3%（保持高度竞争力）

这些显著改进验证了基于上下文管理的heavy模式在通过并行探索和智能聚合利用测试时计算方面的有效性。

5.3 详细分析

（1）Pass@1和Pass@3性能（Figure 7）：

尽管评估环境不稳定，最终的Avg@3结果与Pass@1（3次运行中的最佳结果）结果一致，证明了深度研究方法的鲁棒性。

Pass@3性能展示了智能体的强大潜力：

BrowseComp上达到59.64
BrowseComp-ZH上达到63.67
Humanity's Last Exam上达到45.9

（2）训练奖励和熵（Figure 8）：

奖励曲线： 智能体性能随训练呈现明显且显著的上升趋势，确认了有效的策略学习。这种持续改进凸显了动态数据策划的成功，通过持续提供有挑战性的材料防止学习停滞
熵稳定性： 策略熵表现出卓越的稳定性，在短暂的初始增长后收敛到一致值，从而避免了崩溃和爆炸。这一结果有力证明了环境设计和算法修改的方法论贡献，共同为显著稳定和有效的RL训练范式创造了必要条件

（3）RL的上下文长度影响（Figure 9）：

分析了模型上下文长度（32k、48k、64k）对智能体RL训练过程的影响。关键发现：

奖励动态： 所有三个模型都展示了有效且稳定的策略学习，证实了训练框架的鲁棒性。然而，它们的性能上限存在显著差异：
- 64k模型： 达到最高奖励（完美匹配其自身数据）
- 48k和32k模型： 由于受到越来越多的约束，无法解决课程中最复杂的问题，从而限制了其最大潜在奖励
响应长度趋势：
- 64k模型： 平均响应长度稳步增加，学习利用其广阔的上下文构建更精细的解决方案
- 48k模型： 保持一致的平衡，在稳定的复杂性预算内改进策略
- 32k模型： 显示响应长度的明显下降趋势

核心洞察： 对于上下文有限的模型，在为更强大模型设计的课程上进行RL训练可以迫使其发现更高效的解决方案。这种效应源于动态数据课程持续使用64k上下文模型更新，用最佳解决方案可能超过32k tokens的问题填充训练集。对于32k上下文模型，尝试这些问题可能产生零奖励信号，从而创造强大的隐式激励去发现适合其限制的更简洁、有力的动作序列，从而随时间变得更高效。

（4）交互测试时扩展（Figure 10a）：

与传统模型不同，DeepResearch智能体主要依靠与环境的交互来获取信息和完成任务。因此，与环境的交互次数至关重要。

扩展曲线： 随着上下文长度和交互次数的增长，模型在BrowseComp数据集上的性能持续改善：

8K上下文：约0%
16K上下文：约10%
32K上下文：约25%
64K上下文：约38%
128K上下文：约43%

这证明了交互扩展是深度研究智能体性能提升的关键维度。

（5）超人级合成数据验证：

对SFT数据集的统计分析显示：

超过20%的样本超过32k tokens
涉及超过10次工具调用

这证明了合成数据的高复杂性和丰富性。这种高质量的冷启动数据为模型提供了深度推理和研究能力的坚实基础，为RL阶段提供了出色的初始化。

（6）从模拟到现实（Figure 10b）：

为了快速验证算法，团队构建了一个模拟Wiki环境，镜像真实世界条件。在这个环境中测试改进的GRPO算法，得到的奖励曲线（Figure 10b）与真实环境中观察到的曲线（Figure 8）非常匹配。

这个Wiki模拟环境提供了类似于"风洞实验室"的功能，实现了快速算法迭代，并显著提高了开发效率。

（7）通用基准性能（Figure 11）：

在三个通用基准上的评估结果：

AIME25： 100.0（完美分数）
HMMT25： 100.0（完美分数）
SimpleQA： 98.6

实验结果表明，Tongyi DeepResearch相比仅依赖推理而不使用任何工具的基础模型实现了实质性改进：

知识密集型基准： 通过搜索检索外部信息特别有效
数学推理任务： Python解释器通过原生计算支持增强性能

未来趋势： 模型训练越来越与智能体训练融合，解决范式向集成工具调用和环境交互的智能体架构演进，反映了更类人的问题解决过程。

六、总结

6.1 核心贡献回顾

Tongyi DeepResearch开创了开源AI研究者时代，通过以下核心贡献推动了深度研究智能体的发展：

端到端智能体训练范式： 首次提出统一智能体中期训练和后训练的完整框架，为智能体能力的可扩展发展奠定基础
合成数据驱动的可扩展性： 通过完全自动化的数据合成管线，克服了研究级数据标注的困境，实现了超人级数据集的构建
环境交互的战略性设计： 提出了Prior World、Simulated和Real-world三层环境交互策略，在稳定性、保真度和成本之间取得最优平衡
显著的性能和效率： 以仅33亿激活参数实现了SOTA性能，证明了小模型也能具备强大的智能体能力

6.2 理论与实践意义

理论意义：

系统地论证了智能体能力的涌现不是来自单一世界，而是来自精心选择的环境
证明了合成数据的质量和环境的稳定性比具体算法更关键
提出了基于上下文管理的马尔可夫状态重构范式，解决了长时域任务的上下文限制问题

实践意义：

为社区提供了完全开源的模型、框架和解决方案，加速了智能体研究的民主化
证明了小模型的部署价值，使智能体技术能够在边缘设备上高效运行
为从领域特定智能体向通用智能体演进指明了方向

6.3 局限性与未来方向

当前局限性：

128K上下文长度对最复杂的长时域任务仍不足够
尚未发布更大规模的模型
报告生成保真度和用户偏好对齐仍需改进
强化学习框架效率有待提高（如探索部分rollout）
当前训练聚焦于特定提示指令和预定义工具集，鲁棒性需增强

未来愿景： 团队致力于发展下一代智能体基础模型，这是一个统一的模型，旨在赋予AI系统可扩展的推理、记忆和自主性，使它们能够作为真正的通用智能体运行。这将使个人和组织达到新的生产力和创新高度。

补充说明

本分析严格遵循了论文的技术细节和数学表达，所有公式均使用LaTeX格式正确呈现。论文提出的方法论体系完整、逻辑严密，特别是在合成数据驱动的可扩展性和环境交互的战略性设计两个方面做出了开创性贡献。对于初学者来说，理解本论文的关键在于把握以下核心概念：

智能体（Agent） 不仅仅是一个模型，而是一个能够通过工具与环境交互、自主完成复杂任务的系统
ReAct范式将推理（Reasoning）和行动（Acting）交织在一起，形成了智能体的基本运行模式
中期训练是连接预训练和后训练的关键桥梁，为模型注入智能体归纳偏置
合成数据不是权宜之计，而是智能体训练的核心引擎
环境设计是智能体智能涌现的关键，需要在稳定性、保真度和成本之间精心平衡

论文原文如下：