通义实验室推出的一项突破性开源项目:DeepResearch,旨在让AI真正具备“做研究”的能力!

在 Humanity"s Last Exam、BrowseComp、BrowseComp-ZH、GAIA、xbench-DeepSearch, WebWalkerQA 以及 FRAMES 等多个 Benchmark 上,相比于基于基础模型的 ReAct Agent 和闭源 Deep Research Agent,其 30B-A3B 轻量级 tongyi DeepResearch,达到了 SOTA 效果。

支持深度研究推理
通义DeepResearch模型支持多种推理形式,包括ReAct模式和迭代式深度研究范式(Iterative Deep-Research Paradigm)。

ReAct模式:模型遵循“思考-行动-观察”循环,通过128K上下文长度处理大量交互轮次,实现可扩展的环境交互。其设计受“The Bitter Lesson”启发,强调可扩展计算的优势。
IterResearch范式:将复杂任务解构为独立“研究回合”。
每回合包括:
重构精简工作区:基于上一回合的报告和工具响应动态重构。
执行“思考-综合-行动”流程:内部草稿分析、提炼关键信息到中央报告、最终决策(工具调用或答案生成)。

结合此范式,团队提出Research-Synthesis框架:并行使用多个IterResearch Agent探索问题,整合报告以提升准确性。

端到端Agentic训练
通义DeepResearch重新定义了Agent模型训练流程,建立新范式:Agentic CPT → Agentic SFT → Agentic RL,形成无缝端到端循环。
强化学习优化:基于GRPO算法定制,采用on-policy训练和token级策略梯度损失。通过留一法降低优势估计方差,并排除负样本(如过长未生成答案的样本)以提升稳定性。训练指标显示奖励持续上升,策略熵维持高水平,表明有效探索。

数据质量至关重要:合成数据(如SailorFog-QA-V2)提供一致性分布,优于人工标注数据(如BrowseComp),显著提升泛化能力。

实际应用
通义DeepResearch已成功落地多个阿里巴巴内部应用,成为“生产力引擎”:
高德地图AI出行Agent:集成专属API(如实时天气、交通监测),在晚高峰等场景提供智能导航方案。

通义法睿法律智能体:在法律领域自动检索法条、案例,并进行深度分析。在“法条引用相关性”和“案例引用相关性”指标上超越OpenAI和Claude,综合表现领先。

通义DeepResearch模型、框架、方案已全面开源,可通过下方链接获取信息。
GitHub:https://tongyi-agent.github.io
Hugging Face:https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B