聊透AI Agent：它正从“工具”变成你的“同事”

2025年，是Agent按下加速键的一年。

从年初DeepSeek引发的惊叹，到GPT-4o和Claude 3.5接连登场，大模型的边界一次次被重写。但真正让AI产业链神经绷紧的，不是模型的性能迭代，而是Agent的横空出世。

Manus、Devin等产品的爆火，都在重申一个共识：大模型将不再只是工具，而是要成为可以自我调度的智能体。

Agent由此成为继大模型之后，全球科技圈最快形成共识的第二个风口。

从巨头的战略重构到创业赛道的快速跟进，Agent正成为下一个全民下注的方向。但在C端产品密集涌现、开发者为其狂热的同时，真正跑通用户价值闭环的项目却凤毛麟角，越来越多的产品陷入了“用老需求套新技术”的焦虑。

热浪过后，市场也回归冷静：Agent究竟是一场范式的重构，还是一次新的包装？所谓“通用”与“垂直”的路径分野，是否真的带来可持续的市场空间？而“新入口”背后，是交互方式的进化，还是旧世界的投影？

顺着这些疑问继续下探，我们会发现，Agent的真正门槛，或许并不在模型能力，而在其赖以生存的底层设施。从可控运行环境，到记忆系统、上下文感知、工具调用，每一个基础模块的缺位，都是Agent从演示走向实用的最大阻力。

这些底层工程问题，构成了Agent从“潮流玩具”走向“生产力工具”的最大阻碍，也恰恰是当下最确定、最高价值的创业蓝海。

在这样一个供给溢出、需求未明的阶段，我们想借由这场对谈，回答一个越来越紧迫的问题：Agent的真问题与真机会，究竟藏在哪些地方？

在本次深度对谈里，我们邀请到了身处一线的拾象科技创始人李广密与拾象科技AI Research Lead钟凯祺，两位从业者将从产品形态、技术路径、商业模式、用户体验乃至Infra构建等多个维度，为我们拆解当下Agent的真问题与真机会。

我们将跟随他们的思考，探寻在巨头环伺的牌桌上，创业公司的真实机会藏于何处；一条从“Copilot”平滑过渡到“Agent”的务实成长路径是如何被一步步验证的；以及为何Coding（编码）这一看似垂直的领域，却被视作通往AGI的“价值高地”与“关键指标”。

最终，这场对话将推向更远的未来，一窥人与Agent之间全新的协作关系，以及构建下一代智能基础设施所面临的核心挑战与无限机遇。

要点精选

通用Agent领域做得最好的是“模型即Agent”（Model as Agent）。

做Agent这件事，并不一定要“以终为始”，一开始就瞄着完全自动化的Agent去做，它可以先从Copilot做起。在这个过程中收集用户数据、做好用户体验、占领用户心智，然后慢慢地转型。

AGI有可能最先在Coding（编码）环境下实现，因为这个环境最简单，它能锻炼AI的核心能力。Coding是这个世界里的“万用之机”，有了它，AI就可以去构建和创造。Coding有可能拿走整个大模型产业阶段性90%的价值。

AI Native的产品不只是给人用的，它必须同时服务于AI。一个真正的AI Native产品，应该是内建了服务AI和人类的双向机制。

今天的AI产品正在从“工具”走向“关系”。人不会和工具建立关系，但会和一个有记忆、懂你、能与你“心有灵犀”的AI建立关系。

以下为当天《今夜科技谈》直播沉淀，由极客公园整理。

一、热潮之下，哪些Agent产品已崭露头角？

张鹏：在过去一段时间，所有人都在讨论Agent，认为这可能是现阶段的一个重要议题，也是创业公司的难得发展机会。

我看到拾象科技对Agent体系做了比较深入的研究，也体验和分析了很多相关产品。我想先听听两位，最近哪些Agent相关的产品给你们留下了比较深刻的印象？为什么？

李广密：我自己印象最深的是两个：一个是Anthropic的Claude在编程能力上的表现，另一个是OpenAI ChatGPT的Deep Research功能。

关于Claude，主要是它的编程能力。我有一个观点：编程（Coding）是衡量AGI最关键的先验指标。如果AI不能规模化、端到端地进行软件应用开发，那么在其他领域的进展也会比较慢。我们必须先在Coding这个环境下实现很强的ASI（Artificial Superintelligence），其他领域才可能加速。或者说，我们先在数字环境下实现AGI，再拓展到其他领域。

关于Deep Research，它对我自己的帮助非常大，我几乎每天都在用。它其实就是一个搜索Agent，帮我检索了大量的网页和资料，体验很好，极大地拓展了我的研究空间。

张鹏：凯祺，从你的视角看，哪些产品给你留下了深刻印象？

钟凯祺（Cage）：我可以介绍一下我平时观察和使用Agents的思维模型，然后在每个分类下介绍一两个代表性产品。

首先，大家经常会问：通用Agent还是垂直Agent？我们认为通用Agent领域做得最好的是“模型即Agent”（Model as Agent）。比如广密刚才提到的OpenAI的Deep Research，以及OpenAI新发布的o3模型，它其实就是一个标准的“模型即Agent”的范例。

它把Agent的所有组件——大语言模型（LLM）、上下文（Context）、工具使用（Tool Use）和环境（Environment）——全都缝合到了一起，并进行了端到端的强化学习训练。训练之后的结果就是，各类Agent执行信息检索的任务它都能完成。

所以我的一个“暴论”是：通用Agent的需求基本上就是信息检索和轻度代码编写这两类，而GPT-4o已经完成得非常好了。因此，通用Agent市场基本上是大模型公司的主战场，创业公司很难仅仅服务于通用需求来做大。

让我印象比较深刻的创业公司基本都聚焦在垂直（Vertical）领域。

如果我们先说ToB的垂直领域，可以类比人的工作分为前台工作和后台工作。

后台工作的特点是重复性强、对高并发要求高，通常有一条很长的SOP（Standard Operating Procedure），其中很多任务非常适合AI Agent去一对一地执行，并且适合在比较大的探索空间里进行强化学习。这里比较有代表性的，我想分享的是一些面向AI for Science的创业公司，他们做的是Multi-agent system（多智能体系统）。

在这个系统里，各种科研任务都包含在内，比如文献检索、实验规划、预测前沿进展以及数据分析等。它的特点是，不再是像Deep Research那样的单个Agent，而是一个非常复杂的、能针对科研系统做到更高分辨率的系统。它有一个很有意思的功能叫“Contradiction Finding”，可以处理对抗性的任务，例如发现两篇顶级期刊论文之间的矛盾之处。这代表了研究型Agent里一种非常有意思的范式。

前台工作很多时候是和人打交道，需要做外联，目前比较适合的是语音Agent，例如医疗领域的护士电话回访、招聘、物流沟通等。

这里我想分享一家叫HappyRobot的公司，他们找到了一个听起来很小的场景，专门在物流和供应链领域做电话沟通。比如，一个卡车司机遇到问题，或者货到了之后，Agent能快速给他打电话。这里发挥了AI Agent一个很特别的能力：7天24小时无间断地响应并快速做出反应。这对于物流的大部分需求来说已经足够了。

除了以上两大类，还有一些比较特别的，比如Coding Agent。

二、从Copilot到Agent，是否存在一条更务实的成长路径？

钟凯祺：在代码开发这个领域，最近创业热情很火热，一个很好的例子是Cursor。Cursor 1.0的发布，基本上把一个原来看起来是Copilot（辅助驾驶）的产品，变成了一个完全的Agent产品。它能后台异步操作，有记忆功能，这正是我们对Agent的想象。

它和Devin的对比很有意思，给我们的启发是：做Agent这件事，并不一定要“以终为始”，一开始就瞄着完全自动化的Agent去做，它可以先从Copilot做起。在这个过程中收集用户数据、做好用户体验、占领用户心智，然后慢慢地转型。国内做得不错的，像Minus AI，他们最早的产品也是从Copilot形态做起的。

最后，我还会用“环境”这个思维模型来区分不同Agent。比如，Manus的环境是虚拟机（Virtual Machine），Devin的环境是浏览器，flowith的环境是笔记本，SheetZero的环境是表格，Lovart的环境是画布等等。这个“环境”就对应了强化学习里的环境定义，这也是一种值得参考的分类方式。

张鹏：我们深入聊聊Cursor这个例子，它背后的技术栈和成长路径是怎样的？

钟凯祺：自动驾驶的例子就很有意思，直到今天，特斯拉也不敢真的把方向盘、刹车和油门去掉。这说明在很多关键决策上，AI还没办法完全超越人类。只要AI的能力和人类差不多，一些关键决策就一定需要人类介入。这正是Cursor一开始就想得比较明白的地方。

所以他们最早贴合的特性，就是一个人类最需要的功能：自动补全（Autocompletion），它把这个功能做成了Tab键触发，随着Claude 3.5这样的模型出来，Cursor把Tab的准确率提高到90%以上。在这种准确率下，我可以在一个任务流中连续使用5到10次，心流体验就出现了。这是Cursor作为Copilot的第一个阶段。

第二个阶段，他们做的功能是代码重构（Code Refactoring）。Devin和Cursor都想做这个需求，但Cursor做得更巧妙。它会跳出一个对话框，当我输入需求时，它可以在文件外开启一个平行的修改模式来重构代码。

这个功能刚出来时准确率也不高，但因为用户对它的预期是Copilot，所以大家都能接受。而且他们很准确地预判到，模型的coding能力一定会快速提升。所以他们一边打磨产品功能，一边等待模型能力提升，Agent能力就很顺利地浮现了。

第三步就是我们今天看到的Cursor状态了，一个相对端到端的、在后台（background）运行的Agent。它背后有一个像沙盒一样的环境，我甚至可以在上班时把不想做的任务布置给它，它可以在后台用我的计算资源去完成，与此同时，我能专注于自己最想做的核心任务。

最后，它以异步交互的形式，像发邮件或飞书消息一样，把结果告诉我。这个过程很顺利地实现了从Copilot到Autopilot（或者说Agent）的转型。

关键还是要抓住人的交互心智，从一开始让用户更乐于接受同步交互，这样就能收集到大量的用户数据和反馈。

三、为何Coding是通往AGI的“关键试炼场”？

张鹏：广密刚才说“Coding是通向AGI的关键，如果不能在这个领域实现ASI（超级智能），其他领域也很难。”为什么？

李广密：有几个逻辑。第一，Code这个数据是最干净、最容易闭环，并且结果是可以验证的。我有一个猜想，Chatbot可能没有数据飞轮（一种反馈循环机制，通过从交互或流程中收集数据，持续优化AI模型，进而产生更优的结果和更有价值的数据）。但Code领域有机会跑出数据飞轮，因为它可以进行多轮的强化学习，而Code是跑多轮强化学习的关键环境。

我一方面把Code理解成编程工具，但更愿意把它理解成一个实现AGI的环境。AGI有可能最先在这个环境下实现，因为这个环境最简单，它能锻炼AI的核心能力。如果AI连一个端到端的应用软件开发都做不了，那在其他领域就更难了。如果它在未来一段时间无法大规模替代基础的软件开发工作，那在其他领域也很难。

而且，coding能力上来了，模型的指令遵循能力也会上来。比如处理很长的prompt，Claude就明显要强一些，我们猜测这跟它的coding能力有逻辑关系。

另外一个点，我想未来的AGI会先在数字世界实现。未来两年，Agent能做人在手机和电脑上操作的几乎所有事情。一方面通过简单的coding完成，如果不行，它还可以调用其他虚拟工具。所以，先在数字世界里实现AGI，让它跑得比较快，这是一个大的逻辑。

四、如何判定一个好Agent？

张鹏：Coding是这个世界里的“万用之机”，有了它，AI就可以去构建和创造。而且编程这个领域相对结构化，适合AI发挥。当评价一个Agent的好坏时，除了用户体验，你们会从什么视角去评价一个Agent的潜力？

钟凯祺：一个好的Agent首先得有一个环境来帮助构建数据飞轮，而且这个数据本身要是可验证的。

最近Anthropic的研究员提得比较多一个词叫RLVR（Reinforcement Learning from Verifiable Reward），其中的“V”就是指可验证的回报。代码和数学就是非常标准的可验证领域，任务做完后，立马能验证对错，数据飞轮就自然地建立起来了。

所以，构建一个Agent产品，就是要构建这样一个环境。在这个环境里，用户执行任务的成功或失败都不重要，因为现在的Agent一定会失败。关键是在失败时，它能收集到有信号的数据，而不是噪音数据，来指导产品本身的优化。这些数据甚至可以作为强化学习环境的冷启动数据。

第二，产品是否做得足够“Agent Native”。就是说，在设计产品时，要同时思考人和Agent的需求。一个典型的例子是The Browser Company，它为什么要做一款新的浏览器？因为之前的Arc纯粹是为了提升人类用户的效率而设计的。而他们新的浏览器在设计时，很多新功能未来是能给AI Agent自己使用的。当产品的底层设计逻辑发生改变，这就非常重要了。

从结果上来说，客观评估也很关键。

1. 任务完成率+成功率：首先任务得能跑完，这样用户至少能收到一个反馈。其次是成功率。一个10步的任务，如果每一步准确率都是90%，那最终成功率只有35%。所以必须优化好每一步之间的衔接。目前行业里一个及格线可能是五成以上的成功率。

2. 成本和效率：包括计算成本（token cost）和用户的时间成本。如果GPT-4o跑一个任务3分钟，而另一个Agent要跑30分钟，这对用户是很大的消耗。而且这30分钟里，算力消耗是巨大的，这会影响规模效应。

3. 用户指标：最典型的是用户粘性。用户在尝鲜后是否愿意反复使用？比如日活/月活（DAU/MAU）比例、次月留存率、付费率等，这些是避免公司只有“虚假繁荣”（five minutes of fame）的根本指标。

李广密：我再补充一个视角：Agent与当前模型能力的匹配程度。今天Agent 80%的能力依赖于模型这个引擎。比如，GPT到了3.5，多轮对话的通用范式出现了，Chatbot这种产品形态就行得通了。Cursor的崛起也是因为模型发展到了Claude 3.5的水平，它的代码补全能力才得以成立。

像Devin其实出来就得偏早了，所以创始团队对模型能力的边界理解非常重要，要清楚今天以及未来六个月模型能到哪一步，这与Agent能实现的目标息息相关。

张鹏：什么叫“AI Native”的产品？我觉得AI Native的产品不只是给人用的，它必须同时服务于AI。

换句话说，如果一个产品里没有合理的数据去调试，没有为未来AI的工作环境做搭建，那它只是把AI当成一种降本增效的工具，这样的产品生命力是有限的，很容易被技术浪潮淹没。一个真正的AI Native产品，应该是内建了服务AI和人类的双向机制。简单来说，AI在服务用户的时候，用户有没有也在服务AI？

钟凯祺：我非常喜欢这个概念。Agent的数据在现实世界里是不存在的，没有人会在完成任务时把思考过程一步步拆解清楚。那怎么办？一个方法是找专业的标注公司，另一个方法就是要撬动（leverage）用户，把用户的真实使用方式和Agent自身的运行过程捕捉下来。

张鹏：那如果要通过Agent的方式让人类给AI“投喂”数据，什么样的任务是最有价值的？

钟凯祺：与其想着用数据服务AI，不如想AI有什么长板应该被放大。比如科学研究，在AlphaGo之前，人类觉得围棋和数学是最难的。但用了强化学习之后发现，这些对AI反而是最简单的。在科学领域也一样，人类历史上已经很久没有一个学者能通晓每个学科的犄角旮旯了，但AI可以。

所以我认为，科学研究这类任务对人类来说很难，但对AI不一定难。正因如此，我们才要多找一些数据和服务来支持它。这类任务的回报比大部分任务更verifiable，未来甚至可能是人类帮AI“摇试管”，然后告诉AI结果是对是错，帮助AI一起去点亮科技树。

李广密：一开始的数据冷启动是必要的。做一个Agent就像做一个创业公司，创始人肯定要做冷启动，要亲力亲为。接下来，搭建环境就很重要，决定了Agent往哪个方向走。再往后，更重要的是搭建奖励（Reward）系统。我觉得环境和奖励这两个因素非常关键。在这个基础上，Agent的创业者做好这个Agent的“CEO”就好了。今天AI已经能写出人类看不懂但能运行的代码，我们不一定非要理解强化学习端到端的逻辑，只要搭好环境、设好奖励就行。

五、Agent的商业模式将走向何方？

张鹏：最近我们看到很多ToB领域的Agent，尤其是在美国，它们的商业模式和增长模式有什么变化吗？还是有新的模式出现？

钟凯祺：现在最大的一个特点就是，有越来越多的产品从偏C端切入，在公司组织里自下而上（bottom-up）地被使用。最典型的就是Cursor。除了它，还有很多AI Agent或Copilot产品，大家愿意自己先用起来。这就不再是传统SaaS那种需要先搞定CIO、一对一签单的模式了，至少第一步不是这样。

另一个有意思的产品是OpenEvidence，他们做的是医生这个群体。他们先把医生群体打下来，然后渐渐植入医疗器械和药品的广告。这些业务不需要一开始就和医院谈，因为和医院谈非常慢。AI创业最关键的就是速度，光靠技术护城河是没用的，需要通过这种自下而上的方式增长。

关于商业模式，现在有一个趋势，就是慢慢地从基于成本（Cost-based）定价走向基于价值（Value-based）定价。

1. 基于成本：这像传统云服务，在CPU/GPU成本之上加一层软件价值。

2. 按次收费：在Agent这边，一种是按“动作”（Action）收费。比如我前面提到的物流Agent，给卡车司机打一个电话收几毛钱。

3. 按工作流收费：更高一层的抽象是按“工作流”（Workflow）收费，比如完成一整个物流订单。这离成本端更远，离价值端更近了，因为它真的参与到了工作中。但这需要一个相对收敛的场景。

4. 按结果付费：再往上，就是按“结果”（Result）付费。因为Agent成功率不高，用户希望为成功的结果付费。这要求Agent公司对产品有极高的打磨能力。

5. 按 Agent 本身付费：未来可能会真正地按“Agent”付费。比如，有一家叫Hippocratic AI的公司做AI护士，在美国招一个人类护士大概是每小时40美金，而他们的AI护士每小时只要9到10美金，降了四分之三的成本。在美国这种人力昂贵的市场，这非常合理。如果Agent未来能做得更好，我甚至可以给它发奖金、发年终奖。这些都是商业模式上的创新。

李广密：我们最期待的是按价值（Value-based）的计价方式。比如Manus AI做一个网站，这个价值是不是值300美金？它做一个应用，是不是值5万美金？但今天的任务价值还不好定价。如何建立一个好的衡量计价方式，是值得创业者去探索的。

另外，刚才凯祺提到按Agent付费，这就像企业要和员工签合同一样。未来我们雇佣了Agent，是不是要给它发“身份证”？是不是要签“劳动合同”？这其实就是智能合约。我比较期待未来Crypto领域的智能合约如何应用到数字世界的Agent上，当任务完成后，通过一个好的衡量计价手段，去分配经济利益。这可能是Agent与Crypto智能合约结合的机会。

六、人类与Agent的协作关系会变成什么形态？

张鹏：最近在Coding Agent这个方向，有两个词讨论得比较多：“Human in the loop”和“Human on the loop”，这是在探讨什么？

钟凯祺：“Human on the loop”是指人尽可能减少在循环中的决策，只在关键时刻参与一下。有点像特斯拉的FSD，当系统遇到危险决策时，会警告人类接管油门刹车。在虚拟世界中，这通常指非即时的、异步的人机协作。人可以对AI拿不准的关键决策进行干预。

“Human in the loop”则更偏向于AI会时不时地“ping”你一下，来确认某件事。比如Minus AI，它的右半边有一个虚拟机，我可以实时看到它在浏览器里做什么，这就像一个打开的白盒，我能大概知道Agent想做什么。

这两个概念不是非黑即白的关系，而是一个光谱。现在更多的是“in the loop”，人还是要在很多关键点上做审批。原因很简单，软件还没到那个阶段，出了问题总得有人负责。油门和刹车一定是去不掉的。

可以预见的是，未来高重复性的任务，最终结果一定是人只看摘要，自动化程度会非常高。对于一些难题，比如让AI看病理报告，我们可以把Agent的“假阳率”调高一点，让它更容易觉得“有问题”，然后“on the loop”地把这些案例作为邮件发给人类医生。这样，虽然人类医生需要复核的案例多了，但Agent所有判断为“阴性”的案例都可以被顺利审批掉。如果病理报告中只有20%真的有难度，那人类医生的工作带宽就已经放大了5倍。所以不用太纠结于“in”还是“on”，只要找到好的结合点，就能把人机协作做得很好。

李广密：鹏哥问的这个问题背后，其实有一个巨大的机会，就是“新的交互”以及“人与Agent如何协同”。这可以简单理解成在线（同步）和离线（异步）。比如我们开会直播，必须实时在线。但如果我作为一个CEO给同事布置任务，项目推进是异步的。

这里面更大的意义在于，当Agent大规模落地后，人与Agent如何协同交互，以及Agent与Agent之间如何协同交互，这是非常值得探索的。今天我们还是通过文本与AI交互，但未来与Agent的交互方式会有很多种。有些可能在后台自动化运行，有些则需要人在前面看着。探索新的交互是一个巨大的机会。

七、能力过剩、需求不足，Agent的“杀手级应用”何时出现？

张鹏：Coding Agent总体还是围绕IDE的延长线在做。未来会不会有变化？如果大家都挤在这条路上，后来者要如何追赶Cursor？

钟凯祺：IDE只是一个环境，再去复刻一个IDE本身的价值不大。但在IDE或另一个好的环境里做Agent，本身是有价值的。我会思考它的用户到底只是专业开发者，还是能拓展到专业开发者之外“平民开发者”——那些有很多自动化需求的白领工作者。

现在缺的是什么？不是供给能力，因为Cursor这类产品已经把AI的coding供给能力放大了10倍甚至100倍。以前我要做一个产品，需要外包一个IT团队，试错成本很高。现在理论上我只要说一句话，花20美元的月费就能试错。

现在缺的是需求。大家都在用老的需求去套新技术，有点“拿着锤子找钉子”的状态。目前的需求大多是做落地页（Landing page）或者基础的玩具网站。未来需要找到一个收敛的产品形态。这有点像当年推荐引擎出来的时候，它是一个很好的技术，后来出现了一种叫“信息流”的产品形态，把推荐引擎真正带给了大众。但AI Coding领域还没有找到像“信息流”这样的杀手级产品。

李广密：我觉得Coding有可能拿走整个大模型产业阶段性90%的价值。这个价值怎么长出来？今天的第一幕还是服务全球3000万程序员。我举个例子，Photoshop服务的是全球两三千万专业设计师，门槛很高。但是当剪映、Canva、美图秀秀出来后，可能有5亿甚至更多的用户都可以使用这些工具，并做出更火爆的内容。

Code有一个好处，它是一个创意的表达平台。这个社会上90%以上的任务都可以通过Code来表达，所以它有可能变成一个创意平台。以前应用开发门槛非常高，大量的长尾需求没有被满足。当门槛大幅降低后，这些需求就会被激发出来。

我期待的是“应用的大爆发”。移动互联网生成的最大数据是内容，而AI这一波生成的最大内容可能就是新的应用软件。这就像优酷、爱奇艺这种长视频平台和抖音的区别。你可以把大模型比作摄像头，在它之上还能做出抖音和剪映这样的杀手级应用。这可能就是所谓的“Vibe Coding”（氛围编程）的本质，它是一个新的创意平台。

张鹏：要提升Agent的输出价值，输入（input）也变得非常重要。但在产品和技术上，有什么方法可以提升输入质量，从而确保更好的输出呢？

钟凯祺：在产品上，我们不能觉得用户用不好产品是用户的问题。要下功夫最关键的一个词就是“上下文”（Context）。一个Agent能否建立“上下文感知”（Context Awareness）？

举个例子，如果我在互联网大厂里写代码，Agent不光要看我手头的代码，还要看整个公司相关的代码库（Codebase），甚至要看我在飞书里和产品经理、同事的对话，以及我之前的编码和沟通习惯。把这些上下文都给Agent，我的输入才能更高效。

所以对于Agent开发者来说，最关键的就是要把记忆（Memory）机制和上下文的连接能力做得足够好，这也是Agent基础设施（Infra）的一大挑战。

此外，对于开发者来说，怎么做好强化学习的冷启动数据、怎么定义清晰的奖励（Reward）也很重要。这个奖励背后意味着，当用户表达不清晰时，你怎么把他的需求拆解出来。比如，OpenAI的Deep Research在我问得不清晰时，会先给出四个引导性问题。在和它交互的过程中，我其实也在想清楚自己的需求。

对于今天的用户来说，最主要还是要想怎么清晰地表达需求，以及怎么验收需求。虽然不用做到“以终为始”，但要对好坏有一个大概的预期。我们写Prompt也要像写代码一样，有清晰的指令和逻辑，这样能避免很多无效的输出。

李广密：我补充两点。第一，上下文的重要性。我们内部经常讨论，上下文做好了，会有新的支付宝、PayPal级别的机会。

以前电商看的是成交总额（GMV），以后看的是任务完成率。而任务完成，一边是智能，另一边就是上下文。比如我要做一个个人网站，如果把我的Notion笔记、微信数据、邮件数据都提供给AI，那我的个人网站内容肯定会非常丰富。

第二，自主学习。搭好环境后，Agent要能迭代，这非常关键。如果不能持续学习迭代，结果就是被模型本身吃掉，因为模型就是一个学习系统。上一波移动互联网，没有做机器学习和推荐的公司都没做大。这一波如果Agent做不好端到端的自主学习和迭代，我觉得也做不起来。

八、巨头博弈下，还有哪些变化和机会？

张鹏：我们怎么判断未来Agent的能力会以一个超级接口的形式出现，还是离散地分布在各个场景里？

钟凯祺：我看到一个比较大的趋势是，第一，肯定是多智能体（Multi-agent）的。即便是完成一个任务，在Cursor这类产品里，做代码补全和做单元测试的可能是不同的Agent，因为它们需要的“性格”和擅长的点不一样。

第二，入口会不会有变化？我觉得入口是一个二阶的问题。首先要发生的是，大家有很多Agent，并和它们协作。这些Agent背后会支撑起一张网络，我称之为“Botnet”。比如未来购物，60%以上的固定消费可能都由Agent帮我完成。

在生产力场景也一样，未来程序员的每日例会可能会被Agent之间的协作所取代，由它们推送指标异常和产品开发进展。当这些发生后，入口的变化才可能出现。那个时候，API的调用也不再主要是人类调用，而是Agent之间互相调用。

张鹏：那些有能力的大厂，比如OpenAI、Anthropic、Google、Microsoft，在Agent上都是什么样的决策和行动状态？

李广密：我脑子里一个关键词是“分化”。去年大家都在追赶GPT-4，但现在能做的事更多了，各家都开始分化。

第一个发生分化的就是Anthropic。因为它比OpenAI晚，综合能力没那么强，所以它就专注在Coding上。我感觉它摸到了通往AGI大方向的第一张大牌，就是Coding Agent。他们可能认为，通过Coding可以实现AGI，可以带来指令遵循能力和Agent能力，这是一个逻辑自洽的闭环。

但OpenAI手上的大牌就更多了。第一张是ChatGPT，Sam Altman可能想把它做成10亿日活的产品。第二张是它的“o”系列模型（GPT-4o等），预期很高，能带来更多泛化能力。第三张是多模态，它的多模态推理能力上来了，未来在生成上也能体现。所以，Anthropic摸到了一张大牌，OpenAI摸到了三张。

另一个大厂是Google。我觉得到今年年底，Google可能会在全方位赶上。因为它既有TPU，又有Google Cloud，有顶尖的Gemini模型，还有Android和Chrome。你在全球找不到第二家拥有所有这些要素，还几乎不依赖外部的公司。Google端到端能力是非常强的，很多人担心它的广告业务会被颠覆，但我感觉它未来可能会找到新的产品结合方式，从一个信息引擎变成一个任务引擎。

你看苹果，因为没有自己的AI能力，现在迭代就很被动。而微软是以开发者见长的，但Cursor和Claude其实抢了不少开发者的注意力。当然微软的盘子非常稳，有GitHub和VS Code，但它也必须拥有非常强的AGI和模型能力。所以你看它也宣布GitHub的首选模型之一变成了Claude，并迭代自己的开发者产品。微软在开发者这块必须守住，否则根基就没了。

所以大家开始分化了。可能OpenAI想成为下一个Google，Anthropic想成为下一个Windows（靠API活着）。

张鹏：那与Agent相关的基础设施（Infra）有哪些变化和机会？

钟凯祺：Agent有几个关键组件。除了模型，第一个就是环境（Environment）。Agent开发最早期，80%的问题都出在环境上。像早期的AutoGPT，要么用Docker启动，非常慢，要么直接在本地电脑部署，非常不安全。如果一个Agent要和我一起“上班”，我就得给它配一台“电脑”，所以环境的机会就出来了。

配“电脑”有两大需求：

1. 虚拟机/沙盒：提供一个安全的执行环境。任务做错了能回退，执行过程不能伤害实际环境，并且要能快速启动、稳定运行。像E2B、Modal Labs这样的公司都在提供这类产品。

2. 浏览器：信息检索是最大需求，Agent需要到各种网站上爬取信息。传统的爬虫容易被封，所以需要给Agent搭一个专用的、能理解信息的浏览器。这就应运而生了像Browserbase、Browser Use这样的公司。

第二个组件是上下文（Context）。这包括：

信息检索（Retrieval）：传统的RAG公司还在，但也有新的公司，比如MemGPT，它为AI Agent开发轻量化的记忆和上下文管理工具。

工具发现：未来工具会非常多，需要一个像“大众点评”一样的平台来帮助Agent发现和挑选好用的工具。

记忆（Memory）：Agent需要一套能模拟人类复杂的长短期记忆结合能力的Infra。

第三个组件是工具（Tools）。包括简单的搜索，也包括复杂的支付、自动化后端开发等。

最后，当Agent能力再强一些，一个重要的机会就是Agent安全（Agent Security）。

李广密：Agent Infra非常重要。我们可以“以终为始”地想，三年后，当几万亿的Agent在数字世界里执行任务，那Infra的需求就太大了，这将重构整个云计算和数字化世界。

但今天我们还不知道什么样的Agent能做大，它到底需要什么样的Infra。所以现在对创业者是一个非常好的窗口期，可以和那些做得好的Agent公司共同设计（co-design）和共创Infra工具。

我觉得今天最重要的，第一是虚拟机，第二是工具。比如未来的Agent搜索肯定和人的搜索不一样，会产生天量的机器搜索需求。现在全网人类的搜索每天可能200亿次，未来机器搜索可能是几千亿甚至上万亿次。这种搜索不需要给人类做排序优化，可能一个大的数据库就够了，这里有很大的成本优化和创业机会。

九、当AI不再只是大模型，它会往哪个方向进化？

张鹏：Agent始终绕不开模型，站在今天，你觉得模型技术在过去两年里走过了哪些关键的台阶？

李广密：我觉得关键的里程碑（milestone）可能就两个。一个是GPT-4代表的规模化定律（Scaling Law）范式，即在预训练阶段，扩大规模仍然是有效的，它能带来通用的泛化能力。

第二个大的里程碑是“o”系列模型所代表的“模型会思考”的范式。它通过更长的思考时间（思维链），显著提升了推理能力。

我觉得这两个范式是今天AGI的左膀右臂。在这个基础上，Scaling Law远远没有停止，思考模式也会继续。比如，在多模态下可以继续Scaling，也可以把“o”系列的思考能力加到多模态上，这样多模态就能有更长的推理能力，生成的可控性和一致性就会变得非常好。

我自己的感觉是，未来两年可能比过去两年进步要更快。今天可能正处在一个全球几千名顶尖AI科学家，共同推动人类科技文艺复兴的状态，资源充足，平台也具备了，很多地方都可能出现突破。

张鹏：你会比较期待接下来一两年，在AI领域看到哪些技术台阶的实现和跳跃？

钟凯祺：第一个是多模态。现在多模态的理解和生成还是比较零散的，未来一定会走向“大一统”，即理解和生成一体化。这会极大地打开产品的想象力。

第二个是自主学习。我很喜欢Richard Sutton（强化学习之父）提出的“经验的时代”（the era of experience）这个概念，即AI通过在线执行任务的体验来提升自己的能力。这在以前是看不到影子的，因为没有基座的世界知识。但从今年开始往后，这会是一个持续发生的事情。

第三个是记忆。如果模型真的能在产品和技术层面把Agent的记忆做好，带来的突破会非常大。产品的粘性才真正出现。我感觉GPT-4o开始有记忆的那一刻，我才真正对ChatGPT这款应用产生了粘性。

最后是新交互。会不会有不再是文字输入框的新交互？因为打字这个门槛其实挺高的。未来会不会有更符合人类直觉和本能的交互方式？比如，我有一个“永远在线”（Always-on）的AI产品，它在后台不断地听我说话、异步思考，在我灵感迸发的那一刻，能捕捉到关键的上下文。我觉得这些都是我比较期待的。

张鹏：确实，今天我们面临的挑战和机遇并存。一方面，我们不能被技术发展的速度“拉爆”，要保持持续的关注。另一方面，今天的AI产品正在从“工具”走向“关系”。人不会和工具建立关系，但会和一个有记忆、懂你、能与你“心有灵犀”的AI建立关系。这种关系本质上就是习惯和惯性，这也是未来重要的壁垒。

文章来自于微信公众号“极客公园”。

登录账号