AI人物 1天前 77 浏览次数 0 评论

前 OpenAI 研究员吴翼博士确认出席 QCon 上海,分享 AReaL 框架与 Agent 最佳实践

InfoQ
InfoQ

发布了 286 文章

如果你也关注 Agent、AI 搜索、多模态、工程化等话题,一定不要错过这 100+可落地的实践案例!


10 月 23 日-10 月 25 日,QCon全球软件开发大会将在上海举办。本次大会将聚焦 Agentic AI、具身智能、强化学习框架、端侧大模型实践、多智能体协作等热门话题,以及 AI 时代下的软件研发、可观测、开源等技术实践,邀请来自腾讯、阿里、字节跳动、华为、蚂蚁集团、小红书等企业的技术专家,和来自清华大学、北京邮电大学、浙江大学的顶尖高校讲师,和你一起重构技术认知与能力边界!


清华大学交叉信息院助理教授,博士生导师,前 OpenAI 研究员吴翼博士已确认出席并发表题为智能体时代的强化学习:AReaL 框架与 Agent 最佳实践的主题分享。随着大模型与智能体(Agent)技术的快速发展,强化学习(RL)正成为提升 AI 代理自主决策能力的关键引擎。然而,传统的 RL 训练方法面临计算成本高、数据需求大、系统复杂度高等挑战,限制了 Agent 的规模化落地。本次演讲将重点介绍针对 Agent 模型的强化学习训练系统 AReaL 及其在 Agent 场景下的最佳实践。通过真实数据和可复现的代码,展示 AReaL 如何帮助开发者和企业高效构建智能体系统,并推动 AI Agent 从实验室走向产业应用。


<!---->


吴翼博士,清华大学交叉信息院助理教授,博士生导师,前 OpenAI 研究员。博士毕业于加州大学伯克利分校,研究方向为强化学习。Google Scholar 引用超过 13000 次,曾获 NIPS 2016 best paper award,ICRA best demo award finalist,并获得 2025 年 WAIC 云帆奖。他在本次会议的详细演讲内容如下:


演讲大纲

1. Agent 时代的强化学习新挑战

  • 传统 RL 训练的瓶颈

    数据需求:高质量人类反馈(RLHF)的获取成本

    计算效率:长序列任务(10 K+ tokens)的显存与吞吐问题

    系统复杂度:多模块(生成、奖励、策略优化)协同训练的工程难题

  • AReaL 的破局思路

    异步强化学习训练:2.77x 强化学习训练提升

    SOTA 推理模型:通过强化学习在多个任务轻松实现 SOTA

    全栈开源简单易用:代码、数据、模型、脚本的完整可复现性,轻量级版本轻松入门强化学习

2. AReaL 在 Agent 场景的核心技术

3. Agent 最佳实践案例

4. 社区生态与未来计划


演讲亮点

  • 面向 Agent 的强化学习技术突破

  • 独家开源实践

  • 前沿 Agent 场景落地


听众收益

  • 获取降本增效的 RL 落地路径

  • 解锁 AI 与业务场景的融合范式

  • 了解 AReaL 未来支持多模态 Agent、异步训练的路线图,提前布局技术生态


除此之外,本次大会还策划了多模态融合技术与创新应用混沌工程与全链路压测实践Data Infra for AIAgentic AI加速与反哺:AI 时代的可观测实践Vibe Coding端侧大模型的创新与应用大模型推理的工程实践AI 搜索技术的深水区模型训练与微调具身智能:当 AI 学会“动手思考”大模型驱动的制造革命AI4SE:软件研发提质增效实践AI 重塑视觉创作体验从“炫技”走向“实用”的 AI 产品大模型驱动的智能数据分析等 20 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 上海站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可联系票务经理 18514549229 咨询。

<!---->


InfoQ

InfoQ

286 文章 41992 浏览次数 0 粉丝

评论 (0)

睡觉动画