前 OpenAI 研究员吴翼博士确认出席 QCon 上海，分享 AReaL 框架与 Agent 最佳实践

如果你也关注 Agent、AI 搜索、多模态、工程化等话题，一定不要错过这 100+可落地的实践案例！

10 月 23 日-10 月 25 日，QCon全球软件开发大会将在上海举办。本次大会将聚焦 Agentic AI、具身智能、强化学习框架、端侧大模型实践、多智能体协作等热门话题，以及 AI 时代下的软件研发、可观测、开源等技术实践，邀请来自腾讯、阿里、字节跳动、华为、蚂蚁集团、小红书等企业的技术专家，和来自清华大学、北京邮电大学、浙江大学的顶尖高校讲师，和你一起重构技术认知与能力边界！

清华大学交叉信息院助理教授，博士生导师，前 OpenAI 研究员吴翼博士已确认出席并发表题为《智能体时代的强化学习：AReaL 框架与 Agent 最佳实践》的主题分享。随着大模型与智能体（Agent）技术的快速发展，强化学习（RL）正成为提升 AI 代理自主决策能力的关键引擎。然而，传统的 RL 训练方法面临计算成本高、数据需求大、系统复杂度高等挑战，限制了 Agent 的规模化落地。本次演讲将重点介绍针对 Agent 模型的强化学习训练系统 AReaL 及其在 Agent 场景下的最佳实践。通过真实数据和可复现的代码，展示 AReaL 如何帮助开发者和企业高效构建智能体系统，并推动 AI Agent 从实验室走向产业应用。

吴翼博士，清华大学交叉信息院助理教授，博士生导师，前 OpenAI 研究员。博士毕业于加州大学伯克利分校，研究方向为强化学习。Google Scholar 引用超过 13000 次，曾获 NIPS 2016 best paper award，ICRA best demo award finalist，并获得 2025 年 WAIC 云帆奖。他在本次会议的详细演讲内容如下：

演讲大纲

1. Agent 时代的强化学习新挑战

传统 RL 训练的瓶颈
数据需求：高质量人类反馈（RLHF）的获取成本
计算效率：长序列任务（10 K+ tokens）的显存与吞吐问题
系统复杂度：多模块（生成、奖励、策略优化）协同训练的工程难题
AReaL 的破局思路
异步强化学习训练：2.77x 强化学习训练提升
SOTA 推理模型：通过强化学习在多个任务轻松实现 SOTA
全栈开源简单易用：代码、数据、模型、脚本的完整可复现性，轻量级版本轻松入门强化学习

2. AReaL 在 Agent 场景的核心技术

3. Agent 最佳实践案例

4. 社区生态与未来计划

演讲亮点