在AI智能体激烈角逐信息检索能力的今天,阿里巴巴通义实验室悄然开源WebShaper项目!

它不仅以60.1分的成绩登顶GAIA评测开源榜首位,更以颠覆性的形式化驱动范式,重新定义了高质量训练数据的合成逻辑。

并仅用5k高质量训练轨迹,WebShaper通过监督微调(SFT)与群组相对策略优化(GRPO)强化学习,在GAIA评测中超越所有开源方案。

核心创新:
传统IS任务训练数据依赖“信息驱动”合成范式(如WebDancer),通过预检索知识图谱生成问答对,存在知识结构与推理逻辑割裂、任务覆盖有限两大瓶颈。WebShaper首次提出基于集合论的IS任务形式化建模,将复杂问题转化为“知识投影(KP)”的集合操作(如R-并集、交集、递归),实现任务结构精准控制:

这一变革使数据合成具备全域任务覆盖、结构语义对齐、推理复杂度可控三大优势,彻底突破预检索数据边界。

智能体模块:
WebShaper通过Expander智能体模块实现数据自动化合成:
种子构建:基于Wikipedia词条随机游走生成基础任务;
KP表示:引入变量与常量符号化表示复杂逻辑;

逐层扩展:独创叶节点常量扩展策略,避免冗余信息与推理捷径;

验证闭环:调用搜索、摘要、验证工具确保任务正确性与逻辑严谨性。
应用场景:
WebShaper的高质量数据合成能力打开了广阔应用空间:
学术研究:自动整理跨学科文献,加速知识发现
市场分析:实时抓取行业数据,生成竞争策略报告
教育助手:构建多跳推理题库,培养批判性思维
医疗决策:整合最新医学指南提供个性化诊疗建议
WebShaper的突破远不止于技术指标,它更标志着AI智能体开发范式的根本转向。
GitHub:https://github.com/Alibaba-NLP/WebAgent