上周,OpenAI 正式推出了自己的 Agent 产品,ChatGPT agent。
用户只需扔出一句话,它就能像个聪明的助理一样,查资料、写报告、点网页、跑代码,甚至还能做一整套财报分析,再打包成 PPT。
网络上对 ChatGPT agent 的评价褒贬不一,有人觉得 OpenAI 终于走到了 Agent 这个阶段,是巨大的突破;也有人吐槽,说同类的其他产品早就已经做得比 OpenAI 还要更好。
此前彭博社报道的 OpenAI 对于 AI 发展的几个阶段,Agent 位于第三个阶段。
今天,ChatGPT agent 正式向所有的 Pro、Plus、以及团队用户开放。我们也在 ChatGPT 中实际体验了一下这个新推出的 Agent,看看到底是怎么不仅会思考还会行动的。
OpenAI 今晨发 X 宣布 ChatGPT agent 向全部的 Plus、Pro 以及 Team 用户开放
一开始我想让它帮我调研一个熟悉的话题,vibe coding,并整理一份上半年的趋势报告。它快速爬取了几篇网页,生成了一个简明扼要的文档,然后开始整理成 PPT。
上下滑动查看更多内容,ChatGPT agent 生成的发展趋势报告
生成的 PPT 报告中规中矩,趋势判断也偏保守,没有什么出人意料的洞见,可能还不如我直接跟 4o 聊天得到的信息丰富。
而且在使用 ChatGPT 的电脑工作的过程中,经常可以看到由于 Cloudflare 的限制导致不能访问一些网站。
除了生成报告,那我又试了一些更生活化的任务,比如「推荐礼物」「订餐厅」等。
后面即使尝试让他使用 Amazon 购物它也还是访问不到对应的网站,不过让他选一家好吃的餐厅,在 Google Maps 上预订座位,它成功做到了。
上下滑动查看更多内容,ChatGPT agent 可以接管它的浏览器
比较有趣的是,在 Agent 执行任务的过程中,我可以实时接管它的「浏览器」,比如填写登录信息、手动帮它纠正等等。整个使用体验还是有点像远程操控一个还在实习期的数字助理。
比较有趣的是,我尝试让它用我的微博直接每天发布一则 AI 信息,先总结当天的 AI 领域的新闻,然后发布。它会先通过深度研究总结当天的新闻,然后再通过 Operator 执行这个任务。
微博地址:https://weibo.com/7930962962/PCHNjzfHI
在对话页面,也可以切换活动视图和桌面视图,活动视图的情况下就很像 Kimi 那些深度思考的 Agent 产品。
体验下来,我的直观感受是,它没有传说中那么聪明,有时还会卡在某个步骤发愣,反而显得有点可爱。
但就是这个显得「不够完美」的产品,OpenAI 却说「这已经是他们在这个领域做过的,比以前都要好的版本」。
它到底好在哪里?OpenAI 又是怎样一步步把 ChatGPT agent 做出来的?
ChatGPT agent 的三个主要开发者,在与红杉资本的一场深度访谈中,披露了这个 Agent 项目的核心思路,如何将 Deep Research 和 Operator 合并为一个真正能干活的 AI 智能体?
怎么训练一个能自主使用图形界面、代码终端和 API 的智能体;以及在模型越做越接近现实世界的同时,如何确保它不会误点一个按钮、下错一个单或者从事其他更危险的活动?
太长不看版:
Agent 的全能,不是「1+1=2」拼出来的,是合体演化来的:
除了 Deep Research(查资料)和 Operator(点网页)合并,Agent 团队说还加入了非常多的工具,并且这些工具能在 Agent 调配下共享状态。
和 o1 一样使用强化学习,但训练难度非常大:
OpenAI 用上万台虚拟机做强化学习,不指定步骤,只给目标和奖励;让 Agent 学习如何执行复杂任务,且在不同的工具之间高效切换。
不只听话能干活,更像是个会配合的同事:
OpenAI 的研究员分享自己使用 Agent 购物、生成报告、写代码等在现实生活中的案例。他们提到,Agent 不只执行指令,还会主动提问、接受修正、汇报进度,互动方式更像在 Slack 上远程配合的同事。
做功能不难,最难的是各种安全问题:
丰富的工具库和强大的多任务处理能力,让 Agent 也有了做坏事的可能性;团队说正不断加强对 Agent 的安全训练,创建协议机制等,确保其不会执行有害操作。
未来和 ChatGPT 的记忆功能结合:
团队成员提到计划进一步优化 Agent 的功能,并探索更多互动模式,例如允许 Agent 根据不同用户的个性化特点,自动化执行任务。
从左到右依次为来自红杉资本的主持人 Sonya Huang 和 Lauren Reeder,以及来自 OpenAI 的研究员 Isa Fulford、Casey Chu 和 Edward Sun。视频链接:https://youtu.be/YNWWu0aZ5pY
以下是访谈原文,编译略作调整。
节目介绍:
今天,我们将与 Isa Fulford、Casey Chu 和 Edward Sun 一起探讨 Agent 的演变,他们是 OpenAI 团队的一员,正在开发新的 ChatGPT agent 。
你将了解他们是如何通过统一深度研究和 Operator 架构,实现了能力的巨大飞跃。以及允许多个工具共享状态,从而让用户在同一环境中实现流畅的过渡,进行可视化浏览、文本分析和代码执行等任务。
他们的训练方法并不是编程特定的工具使用模式,而是让模型通过在成千上万台虚拟机器上进行强化学习,发现最优策略。
他们创造了一个可以与用户并肩工作数小时的 Agent ,它能提出澄清问题并接受任务中的修正,拓展了我们与 AI Agent 互动的方式。
团队还分享了在安全性方面的挑战, Agent 活动中遇到的问题,以及为何像日期选择这样的问题仍然令 AI 系统困扰。
他们透露,如何通过精心的数据筛选让小型团队实现突破性的能力,表明我们现在进入了一个 AI 发展新阶段,在这个阶段,产品洞察与计算能力同样重要。
ChatGPT agent 是前深度研究和 Operator 团队的合作成果
主持人:Isa、Casey、Edward,感谢你们今天的参与。
Isa:谢谢你们邀请我们。
主持人:你们是 ChatGPT agent 的团队,是吗?它是什么?
Isa:是的,这是前深度研究团队和 Operator 团队的合作成果,我们创造了一个新的 ChatGPT agent ,它能够执行通常需要人类花费很长时间才能完成的任务。
我们为 Agent 提供了一个虚拟计算机,通过它, Agent 有几种方式可以访问互联网,甚至还有更多方式,稍后会详细介绍。
它有一个文本浏览器,类似于深度研究工具,能够高效地在线搜索信息,并通过这个非常快速的文本浏览工具查找资料。
它还有一个虚拟浏览器,类似于 Operator 工具,能够完全访问图形用户界面,点击、填写表单、滚动、拖动等。
而 ChatGPT agent 比这两个工具更强大,因为一个更高效,另一个更灵活。我们还为它提供了终端访问权限,这样它就能够运行代码、分析文件、创建电子表格或幻灯片等。
ChatGPT agent 连接 Gmail
通过终端,它还可以调用公共或私人 API。如果你登录,它可以访问你的 GitHub、Google Drive、SharePoint 等。
这个工具非常酷的地方在于,所有工具共享状态。这就像你在使用计算机时,所有的应用程序都可以访问同一文件系统,工具之间也是如此。
模型能够非常灵活地执行任务,稍后我们会更详细地讨论。这是一种非常灵活的方式,允许模型为用户执行复杂的任务。
Isa Fulford
主持人:给我们讲讲这个项目的起源吧。它是怎么开始的?
Casey:我们团队曾分别在 Operator 和深度研究领域工作。去年 1 月,我们发布了第一个 Operator 产品,它可以帮你完成一些互联网任务,比如帮你网购什么东西。
然后,两周后,我们发布了深度研究产品,它能够广泛地浏览互联网、综合信息并为你创建带有引用的长篇研究报告。
当我们在思考产品路线图时,突然意识到,这两个产品的结合真是天作之合。Operator 在与网页的视觉交互方面非常擅长,但它在处理长文章时有困难,而深度研究则擅长阅读长文章,但在处理互动元素或高度视觉化内容时比较困难。
Casey Chu
Isa:因为这些工具是不同的,所以深度研究有一个文本浏览器,可以非常高效地阅读和搜索信息,但无法像 Operator 那样滚动、点击或填写表单,而 Operator 则可以完全访问 GUI 浏览器。
正如 Casey 所提到的,深度研究具备一些 Operator 不具备的功能。然后,深度研究用户最大的需求之一就是让模型能够访问付费的内容源,而 Operator 正好可以做到这一点。
Casey:此外,我们团队的成员 Eric 在分析用户在 Operator 上进行的任务时发现,很多其实是深度研究类型的任务,比如「为我研究这个旅行并预订」。这真是一个自然的组合。
主持人:在什么方面「1+1=3」呢?
Edward:正如我们一直想要实现的目标那样,我们让深度研究能够访问一个真正的浏览器,加载以前无法访问的真实内容。
Casey:你提到的「1+1=3」其实不只是结合了深度研究和 Operator,还加入了很多其他工具。例如,终端工具,它可以执行命令做计算。还有图像生成工具,如果它想让幻灯片更加生动,可以生成图片。
Isa:它还能调用各种 API,生成 PowerPoint 等,能够做很多事情。
Agent 是这种交互方式的最基础,但它比任何东西都要好。
主持人:那么,它目前在实际应用中是怎样的?我知道 ChatGPT agent 还处于早期阶段。
Isa:我觉得最酷的地方在于,我们已经有了一些关于人们将如何使用它的想法,但我们有意让它保持开放性。我的意思是,它被称为agent,这在一定程度上是模糊的,因为我们很兴奋地看到人们最终如何使用它。
当然,我们特别训练它去做一些特定任务,例如深度研究类的任务,比如当你想要一篇关于某个话题的长篇报告时;Operator 类的任务,比如帮你做些事情,比如预订机票,或者帮你买东西;此外,它还擅长制作幻灯片、制作电子表格和进行数据分析。
我们也在努力训练它做更多事情,所以我们很高兴能看到人们用它做一些我们自己没想到的新用途。
主持人:你觉得它会更偏向消费者还是 B2B(面向企业) 应用呢?
Isa:最好是两者都有。
Casey:我认为我们主要面向的是「专业消费者」,那些愿意花 30 分钟等待详细报告的人。这个人群既可以是普通消费者,也可以是工作中的人,适用于两者。
主持人:你们有自己最喜欢用这个工具的方式吗?
Edward:对我来说,更多的是从我们的电子表格或 Google 文档中提取数据,例如记录我们的扩展日志,然后制作幻灯片来展示数据,或者组织数据。这非常有用。
Casey:我最近一直在深入研究古代 DNA,这是我的兴趣之一。过去五年,很多兴奋的研究正在进行,科学家们对这些 DNA 进行测序,发现了很多关于某些人群起源的历史信息。
问题在于,这些研究还很新,缺乏一个参考资料库来总结这些材料,但 Agent 可以帮助我收集所有这些来源,并将它们综合成一个报告、幻灯片等,方便我阅读。我觉得它非常适合这个话题。
Isa:我喜欢用它来处理消费者任务,例如网购。我觉得特别有用的是很多网站需要用到图形浏览器,因为它们有一些搜索过滤器需要使用,而且模型确实需要看到商品的外观。它在规划活动方面也非常有帮助。
主持人:你最喜欢的购物查询是什么?
Isa:我使用它购买衣服。
主持人:太棒了,你们还在我们拍摄这期节目之前展示了一个非常酷的用例。可以分享一下吗?
Isa:当然,那其实是我们同事 Tejo 分享给我们的一个例子。她让 Agent 估算了 OpenAI 的估值,并基于网上找到的信息,创建了一个财务模型,并做出了预测。
它还生成了一个电子表格,并做了总结分析,然后还制作了一个幻灯片来展示结果。希望模型的预测是正确的,因为它给我们做的预测非常有雄心。
主持人:它做的幻灯片非常令人印象深刻。
ChatGPT 制作的 PPT 示例
Casey:我要特别提到的一点是,这个模型的任务执行非常具有可持续性。我认为这为一个新的范式打开了大门,用户可以给 Agent 下达任务后,暂时离开,等它返回报告。随着 Agent 变得更加独立,它将能够完成更长时间的任务,这是一个很好的例子。
主持人:这些是你们目前发布的最长任务吗?
Casey:我认为是的。我刚刚做了一个持续一个小时的任务,我以前从未见过这么长时间的任务。
Isa:我不太清楚 Codex 能运行多长时间。
主持人:关于这个模型能长时间运行而不出现问题,有什么特别之处吗?
Edward:我们有一些工具来帮助模型进一步检查任务的上下文,而不仅仅是原始的硬性限制。所以,模型能够通过记录自己在做什么,一步步地执行任务,从而延长它可以不受人工干预而完成任务的时间范围。
主持人:另外,模型与人类之间来回互动的流程也很顺畅,这也是非常重要的。这样我可以在它执行过程中进行纠正,对吧?
Isa:是的,这个模型非常灵活和协作,这对我们来说非常重要。它的设计理念就像是你和别人互动时的方式,假设你在 Slack 上让某人做一件事。你可能会给他们一些指示,然后他们会问你一些问题,开始执行任务。
可能在任务的过程中,他们会说,「哦,其实能不能澄清一下这个?」或者「能不能帮我登录一下?」或者「我能为你做这个吗?」你可能还会想起一些之前没提到的事,然后你想打断他们,告诉他们「哦,顺便做这个」。
或者你可能会要求更新任务进度,如果他们做得太慢的话。又或者如果他们走错了方向,你可能会重新引导他们。
这就是我们建模的方式。我认为非常重要的一点是,用户和 Agent 都能发起沟通。所以我认为我们现在所拥有的,可能是这种交互方式的最基础版本,但它比我们以前在这个领域发布的任何东西都要好。
最初,模型或 Agent 会向你提出澄清性的问题,类似于深度研究,但它更加灵活,并不是每次都会问你澄清性问题。
你也可以打断模型,举例来说,你可以说,「哦,能总结一下你到目前为止做了什么吗?」或者「哦,我忘了说,其实我只想要蓝色的运动鞋」。
如果模型要执行某些具有破坏性的操作,或者它需要你登录某些东西,它也会询问你是否允许它这么做,然后才会继续执行。
ChatGPT agent 的可视化浏览器
Casey:关于这个话题,我们其实还构建了一个计算机界面,你们可能看到过,在这个界面上,你可以实时看到 Agent 在做什么,这个过程在对话结束后依然有效。
所以,当任务完成后,你还可以回去向它提问,要求它修正某些内容,或者做其他任务。你还可以接管那个计算机界面,点击进去后,你就能进入它的环境,可以代替它操作,登录账号,或者填写信用卡信息等。
因此,我喜欢把它看作是你在监督工作进展,并且可以在必要时接管。
主持人:谢谢你,让我们可以进行小型机器人一样的操作。
和 o1 的技术一样,采用强化学习训练
主持人:那么我们很想了解一下,这个是如何运作的,当然是在你能分享的范围内。
Edward Sun
Edward:是的,这个 Agent 是通过和 o1 相同的技术进行训练的,采用强化学习方法。
所以我们给这个 Agent 模型提供了我们所有现有的工具,这些工具在同一个虚拟机中实现,比如文本浏览器、图形界面浏览器、终端以及图像处理工具。
然后,模型会尝试解决任务,我们提供的这些任务比较困难,需要模型使用这些工具完成。完成任务后,我们会对模型的表现进行奖励,鼓励它高效且正确地完成任务。
举个例子,经过这种训练后,模型能够流畅地在这些工具之间切换。比如,如果你要求模型进行餐厅的调研,可能会使用深度研究风格的文本浏览器进行信息收集,然后也会使用图形界面浏览器查看菜品的图片,并且可能需要查看用 JavaScript 编写的可用性信息,这就需要用到真正的图形界面浏览器。
再举个例子,如果你要求它创作艺术作品,它通常会从网站上抓取资源,并在终端中使用这些资源。
Isa:我觉得与过去工具使用的实现方式相比,这个工具一个很酷的地方是,所有工具共享状态。
就像你在使用电脑时打开多个应用一样,如果你下载了东西,它会在其他应用中也能访问到,这非常类似。
模型可以在文本浏览器中打开一个页面,它效率更高,但如果它意识到需要用到图形浏览器,它就可以无缝切换。或者它可以通过浏览器下载某些东西,然后在终端中操作它,或者在终端中运行某个程序,再在浏览器中打开。
ChatGPT agent 是非常灵活的,所以它给模型提供了一种更强大的与互联网、文件和文件系统中的代码进行交互的方式。
Casey:有趣的一点是,我们本质上是给模型提供了这些工具,然后把它「锁进房间里」,然后进行实验,我们并没有明确告诉它什么时候该使用什么工具,模型会自己弄明白,这几乎像是魔法一样。
主持人:这个技术听起来和我们之前在播客中提到的深度研究很相似,我们可以把它看作是未来开放式 Agent 训练的标准技术吗?
Isa:我觉得我们可以把这个做到非常远。你知道,我们的团队合作的时间并不长。
我们甚至把这个模型框架设定为一种最基本的可发布版本,主要是为了内部的公关目的,但这实际上是我们能一起做出的最基本的版本。我觉得,我们完全可以在这些方法上更进一步,推动这个模型的发展。
例如,幻灯片功能就是一个新功能,目前已经非常令人印象深刻,Aiden、Paloma Martin 和其他很多人都在这个工作上做得很棒。
但我认为我们可以继续推动这个功能,使用相同的技术进一步改进。不过,我觉得要做到这一点,我们可能还需要一些其他的东西。
Edward:是的,到目前为止,这个进展简直是魔法般的。就像相同的算法,能够像 o1 推理一样工作,之前是核心的研究,现在已经能适应更先进的计算机使用、浏览器使用 Agent 。
主持人:这个策略和模型在执行时,在哪些方面会遇到限制呢?
Isa:我认为这个模型的一个有趣之处在于,它能够采取带有外部副作用的行动,这会带来更多的风险。
比如在深度研究中,模型是只读的,限制了它能做的事情,比如数据泄露等问题。
但现在,理论上,模型能够成功完成任务的同时,也可能采取一些有害的行动。比如,你让它帮你买东西,它可能会决定买 100 个不同的选项,只是为了确保你满意。没错,类似这样的例子有很多。
所以,我觉得,安全性和安全培训以及应对措施,正是这个模型开发过程中非常酷的一部分。
也许你可以更详细地讲讲这方面的内容。
Casey:我也正打算提到这一点,正是与现实世界的联系让事情变得复杂。我们必须在成千上万的虚拟机上训练这个模型,有时会出现问题,一旦访问到真实的网站,网站崩溃了,或者遇到容量限制、负载测试之类的情况。
没错,这才刚刚开始,我们会继续改进并解决这些细节,但这无疑是一个主要的限制。
我们有强大的检测和缓解机制应对各种 Agent 风险
主持人:从安全的角度来看,你是怎么考虑为模型建立适当的保护措施的?如何确保它不会登录到我的银行账户并将所有信息发给一个尼日利亚王子呢?
Casey:这是个非常好的问题。确实,这也是一个新兴的风险。因为互联网是一个非常危险的地方,充满了攻击者、诈骗者以及网络钓鱼攻击等等,问题层出不穷。
是的,我们的模型确实能够推理这些问题,如果你告诉它要小心;我们已经做了一些安全训练来增强它的稳健性,但有时候它可能会被欺骗,也有时它会过于急切地完成你的任务。
我们已经制定了很多缓解措施,团队也付出了很多努力,整合了许多技术,力求让模型尽可能安全。
举个例子,我们有一个监视器,它像看护者一样盯着模型的行为,查看是否有什么异常,比如是否访问了一个奇怪的网站,就像你电脑上的防病毒软件一样。它会持续监控,如果发现任何可疑的行为,就会停止操作。
当然,我们无法保证捕捉到所有的风险,这仍然是一个我们会继续迭代的领域。如果我们发现新的攻击或遇到新的威胁,我们有一个响应机制,能够快速应对并更新这些监视器,就像你更新防病毒软件一样,它会识别新的攻击并尽可能确保安全。
Isa:是的,我觉得安全训练的一个亮点就是,这个过程涉及了跨部门的合作,包括安全团队、治理团队、法律团队、研究团队和工程团队,甚至更多的团队。
我们在每个层面上都做了很多缓解措施。我们还做了很多外部和内部的红队测试。但是正如 Casey 提到的,发布模型后肯定会有新的问题出现。所以我们需要确保在发现这些问题时,我们有强大的检测和缓解机制。
主持人:对于这些模型中的一些,存在着使用它们可能带来的风险,无论是制造生物危害还是其他方面。你们是如何管理这些问题的?
Casey:是的,生物技术确实一直在我们团队的关注之中。我们的团队在这个问题上非常谨慎。
我们认为这个 Agent 非常强大,能够进行研究,能大大加速你的工作,但这也意味着它可能加速负面影响的发生。
我们团队一直在关注的一个重要问题是生物风险,尤其是生物武器的制造之类的事情。我们一直在思考如何有效应对这些风险,并且保持非常谨慎。
为了确保这个模型无法被用于造成这些伤害,我们做了很多周的红队测试。同时也实施了许多其他的风险缓解措施。特别要感谢 Karen,她领导了这个工作。总的来说,我们非常清楚这些风险,只是在尽可能小心谨慎地推进。
小团队也能做出伟大的事情
主持人:能跟我们说说这个团队的组成吗?
Isa:正如 Casey 之前提到的,我们有深度研究团队、应用研究团队、Operator 研究团队、计算 Agent 研究团队和Operator 应用团队,实际上我们将所有人合并在一起,大家非常紧密地协作,研究团队和应用团队通力合作。
这种合作很棒,真的很有趣。
Casey:Isa 和我已经是很久的朋友了,所以这种合作对我们来说非常自然。
主持人:你们团队一共有多少人?
Isa:在深度研究团队,大部分时间是 3 到 4 个人。现在有一些新成员加入,感觉非常激动。然后在 Kumar 团队,大概有 6 到 8 人左右。
在研究方面,我们有一个非常棒的应用团队,工程、产品、设计都由 Yash Kumar 领导,他的工程团队非常强大。所以跟他们紧密合作真的很有趣。
Yash Kumar 左一
实际上,我认为这个协作之所以特别,很大一部分原因在于研究团队和应用团队的紧密合作,甚至从一开始,我们就非常注重共同定义产品应该实现的功能,研究、产品和设计是一个很紧密的合作过程。
我们是从想要解决的实际应用场景出发,再去训练模型、构建产品。当然,现在它还不能完全做到我们设想的所有功能,但能做一些我们未曾预料到的事情,我觉得这是我们在开始一个项目时采用的一个很好的框架,它非常接地气,注重如何在现实中被人们使用。
主持人:这个团队比我想象的要小得多。小团队也能做出伟大的事。
Isa:是的,确实是。我们合作的时间也不长。
Casey:也就几个月的时间。
Edward:实际上,研究团队和应用团队的边界并不像我想象的那么明确,因为在模型训练过程中,很多应用工程师也在协助我们调整模型,而在模型训练完成后,一些研究团队成员也参与了模型的部署和实际用户的应用。
保持训练过程的稳定性是 Agent 模型最难的部分
主持人:训练这个 Agent 模型最难的部分是什么?
Edward:我认为最大的挑战之一是如何保持训练过程的稳定性,特别是考虑到我们在训练时仅使用了浏览和 Python 等成熟的工具,这些工具已经被我们使用了一段时间。
但在训练 Agent 模型时,我们加入了一些新工具,比如计算机和终端,这些工具被打包在同一个容器、同一个虚拟机内。
所以实际上,我们的训练过程变得非常复杂,因为我们需要设置成千上万个虚拟机,同时让它们访问互联网,这给我们带来了很大的挑战。训练过程中有时会出现失败,但最终我们非常高兴能够得到现在的模型。
主持人:回到正题,接下来会有什么进展呢?更多的数据源、更多的工具、更强的模型?你们是如何考虑这些问题的?
Casey:我很喜欢我们 Agent 模型的框架,因为你可以让它做任何你想做的事情,几乎任何任务都可以交给它去做,虽然它可能并不总是做得很好。
主持人:你可以告诉它:「去网上赚钱。」
Casey:你可以这样告诉它。
主持人:我们现在试试吗?
Casey:但我认为,关键是提升任务准确性,优化任务表现,涵盖计算机上任何可能的任务。这是一个庞大的任务。
Edward:通过迭代部署,我们也非常期待用户能发现新功能,比如深度研究中的编程能力,或者 Operator 的社交能力。
Isa:你们会用 Agent 模式进行编程吗?
Edward:是的,我会用它来编程。
很多时候我用它,因为它其实并不会总是重写我的整个代码库,它只是做一些小的编辑。而且它对不同函数的原始文档理解得很好。所以我觉得它在函数调用时产生幻觉的概率较低。
主持人:有趣,那你是怎么决定什么时候使用 Codex,什么时候使用 Agent 模式的?
Edward:对于 Agent,我更像是将它当作我使用 GPT-4 或者 o3 的方式,更多的是一种互动体验。而对于 Codex,它更像是你设计一个问题,然后让一个同事去解决,之后它会为你做一个 PR(代码合并请求),但对于 Agent 来说,它更像是给你一个函数或一个建议。
Isa:它还可以进行代码搜索,因为它能够通过 API 连接访问 GitHub。所以像代码搜索这类的事情也可以做。
主持人:几乎可以说, Agent 的路线图到现在为止,已经构建了不同的模块,像是 Agent 所需的附属物品,通过将这些模块结合起来,这就像是在计算机上拥有一个完全具身的 Agent 。我觉得这是非常激动人心的。
Isa:是的,我认为我们另一个很激动的领域是与 Agent 协作的体验。我认为这个模型在多任务处理上做得非常好,并且很适合继续进行任务。
我认为这是深度研究的一个不足之处,很多人会在一个对话中进行多次深度研究请求,但这并不总是那么顺利。所以我们非常满意这个模型在多任务能力上的表现,我们只希望能够进一步改善它。
然后我也认为,个性化和记忆功能将变得非常重要。而且现在每个 Agent 任务都是由用户发起的,但未来它也应该在你不需要主动请求的情况下自动为你做事。
Casey:是的,我也对围绕 Agent 的 UI 和 UX 很感兴趣,因为现在显然我们处于一个 ChatGPT 的世界。你开始一个对话,然后它就开始了,但你可以想象很多不同的与 Agent 互动的模式。我非常期待探索不同的互动方式。
用户和 Agent 之间还会有更多新的交互范式
主持人:你觉得这将始终是一个单一的全知超级 Agent 吗?还是会有像金融分析师、私人派对策划等子 Agent ?你对这一点的愿景是什么?
Isa:我认为人们对此有不同的看法。我认为如果在极限情况下,你可以只提一个问题,然后它能弄清楚需要做什么来完成你希望它为你做的事情,那似乎会是最简单的方式。
就像你有一个非常了不起的幕僚,它知道如何正确地分配任务,基本上可以完成你所需要的任何事情,这似乎会非常轻松。
Casey:我同意这个看法。而且,即使在我们的一些轨迹中,比如说,你问的可能是购物任务,有时候它会进入终端并做一些预算计算,我认为模型应该可以自由使用所有工具,而不需要是金融分析师才能使用金融分析师的工具集。
Edward:是的,我觉得,推出产品时,确实有必要拥有一些像 GPTs 这样的定制模型,或是定制指令来将模型置于特定角色。
但一般来说,在训练模型时,很多核心研究操作的技能都是可以相互迁移的,像是切片生成这些技能。因此,更合理的做法是拥有一个单一的 Agent ,作为基础模型,完全支持各种任务。
主持人:我想,即使人们从事不同类型的工作,但从根本上来说,我们都在发送邮件、制作幻灯片、做许多相似的电脑前工作。
我很想了解一下强化学习的视角,在这个方面有什么收获。似乎这是你们 Agent 做得很好的方法。为了让 Agent 能在各种任务上表现得这么好,是否数据量非常大?或者说,从强化学习的角度来看,你们有哪些经验?
Edward:是的,实际上,我们创建了一系列非常多样化的任务,其中包括一些要求在互联网上找到非常具体的主题或答案的任务,或者像深度研究那样的任务,你需要写一篇完整的文章,当然还有很多其他任务,都是我们希望模型能胜任的任务。
到目前为止,我们认为,只要你能在模型给出结果后对任务进行升级,判断模型表现如何,你就可以可靠地训练模型,让它在任务上做得更好。
主持人:在进行这种训练时,是否需要做一些特别的工作,以确保与用户之间的每轮互动都顺畅?还是说,这主要是关于收集什么样的轨迹数据?
Edward:是的,通常我们关注的是端到端的表现,例如从你指定提示到任务完成的整个过程。
主持人:而且,模型在与用户合作时表现得非常好。
Isa:至于你的问题,强化学习非常高效,这意味着我们能够策划一小部分非常高质量的数据。相较于预训练数据的规模,这些数据的规模可以说微乎其微。
因此,我们能够通过策划这些更小规模的高质量数据集来教会模型新的能力。
Casey:我还要说的是,在我们进行强化学习之前,为了让 Operator 部分工作得很好,模型必须足够好,能够基本完成任务。我们的团队花了很多时间,过去两到三年里,我们一直在努力让模型达到能够合理推理、理解页面和视觉元素的程度。所以,这个模型建立在这些基础上。
主持人:实际上,你能详细说一下吗?因为我记得在 OpenAI 的早期阶段,总是说是比特世界的一部分,曾经尝试过用强化学习来控制鼠标的路径,那个问题过于开放,无法解决。现在发生了什么变化,使得这个问题变得可以解决了呢?
Casey:太棒了,你提到了「比特世界」,这真的很有意思。这个项目从 2017 年左右开始就有了很长的发展历史。实际上,我们的代号就是「比特世界 2」,专注于计算机使用部分。
至于变化,我觉得最根本的是训练规模的变化。我不知道具体的倍数,但计算量可能是以前的 100 倍左右。无论是在预训练还是强化学习方面,我们的训练数据量都大幅增加。我真的认为这主要就是规模的变化,规模逐步跟上了我们的雄心。
主持人:嗯,规模就是一切。
Casey:我相信,只要有好的数据,规模就能发挥作用。
主持人:在「 Agent 模式」下,有哪些特别让你兴奋的能力或者功能?
Edward:其实,这个模型在做一些真正的研究任务上表现得非常好,比如数据科学,或者总结报告、处理电子表格中的发现等等。
所以我们进行了一些评估,比如数据科学基准测试,我们评估了模型,它实际上超越了人类基准。在某些研究任务中,实际上它比人类还强。我们可以依赖这个模型来进行一些基本的分析工作。
Isa:这个领域,Jonathan Blackman 是我们团队中推动得最积极的人,特别是在电子表格和数据科学方面,真是要感谢他。
主持人:电子表格和数据科学,看来你们要把我们从工作岗位上「自动化」出去了。
主持人:不,是在提升我们、增强我们。
Casey:另一个让我很兴奋的点是:我们在一月发布了一个 Operator,虽然它在「点击」方面表现得还不错,但我认为我们已经大幅提升了这一功能,现在它更准确了,能够做到一些基本操作的正确执行。
这点让我很兴奋,因为它能够可靠地填写表单、做一些类似的事情。不过日期选择功能,仍然需要改进。
Isa:不过,不知道为什么,日期选择功能似乎就是最热门的话题。
主持人:好的,最后一个问题。你们似乎已经为这个项目奠定了一个非常有趣的框架和结构,接下来会做什么?
Isa:接下来我们最兴奋的事情是:我们让模型接入的这个工具非常通用,基本上可以做你在计算机上能做的大部分事情。如果你想想人类在计算机上能做的所有任务,它们非常广泛。
所以现在我们感觉,我们要做的就是让模型能够很好地完成所有这些任务,并且想办法通过这个非常通用的工具来训练各种各样的任务。
我觉得前面还有很多困难需要克服,但我们对未来充满了期待。
我们也很兴奋能推动不同的交互方式,我相信用户和虚拟助手或者 Agent 之间会有很多新的交互范式,接下来一定会有很多激动人心的时刻。
文章来自于微信公众号“APPSO”。