AI热点 3 months ago 150 Views 11 Comments

聊透AI Agent:它正从“工具”变成你的“同事”

Published 9872 Articles


2025年,是Agent按下加速键的一年。


从年初DeepSeek引发的惊叹,到GPT-4o和Claude 3.5接连登场,大模型的边界一次次被重写。但真正让AI产业链神经绷紧的,不是模型的性能迭代,而是Agent的横空出世。


Manus、Devin等产品的爆火,都在重申一个共识:大模型将不再只是工具,而是要成为可以自我调度的智能体


Agent由此成为继大模型之后,全球科技圈最快形成共识的第二个风口。


从巨头的战略重构到创业赛道的快速跟进,Agent正成为下一个全民下注的方向。但在C端产品密集涌现、开发者为其狂热的同时,真正跑通用户价值闭环的项目却凤毛麟角,越来越多的产品陷入了“用老需求套新技术”的焦虑。


热浪过后,市场也回归冷静:Agent究竟是一场范式的重构,还是一次新的包装?所谓“通用”与“垂直”的路径分野,是否真的带来可持续的市场空间?而“新入口”背后,是交互方式的进化,还是旧世界的投影?


顺着这些疑问继续下探,我们会发现,Agent的真正门槛,或许并不在模型能力,而在其赖以生存的底层设施。从可控运行环境,到记忆系统、上下文感知、工具调用,每一个基础模块的缺位,都是Agent从演示走向实用的最大阻力。


这些底层工程问题,构成了Agent从“潮流玩具”走向“生产力工具”的最大阻碍,也恰恰是当下最确定、最高价值的创业蓝海。


在这样一个供给溢出、需求未明的阶段,我们想借由这场对谈,回答一个越来越紧迫的问题:Agent的真问题与真机会,究竟藏在哪些地方?


在本次深度对谈里,我们邀请到了身处一线的拾象科技创始人李广密拾象科技AI Research Lead钟凯祺,两位从业者将从产品形态、技术路径、商业模式、用户体验乃至Infra构建等多个维度,为我们拆解当下Agent的真问题与真机会。


我们将跟随他们的思考,探寻在巨头环伺的牌桌上,创业公司的真实机会藏于何处;一条从“Copilot”平滑过渡到“Agent”的务实成长路径是如何被一步步验证的;以及为何Coding(编码)这一看似垂直的领域,却被视作通往AGI的“价值高地”与“关键指标”。


最终,这场对话将推向更远的未来,一窥人与Agent之间全新的协作关系,以及构建下一代智能基础设施所面临的核心挑战与无限机遇。


要点精选


  • 通用Agent领域做得最好的是“模型即Agent”(Model as Agent)。


  • 做Agent这件事,并不一定要“以终为始”,一开始就瞄着完全自动化的Agent去做,它可以先从Copilot做起。在这个过程中收集用户数据、做好用户体验、占领用户心智,然后慢慢地转型。


  • AGI有可能最先在Coding(编码)环境下实现,因为这个环境最简单,它能锻炼AI的核心能力。Coding是这个世界里的“万用之机”,有了它,AI就可以去构建和创造。Coding有可能拿走整个大模型产业阶段性90%的价值。


  • AI Native的产品不只是给人用的,它必须同时服务于AI。一个真正的AI Native产品,应该是内建了服务AI和人类的双向机制。


  • 今天的AI产品正在从“工具”走向“关系”。人不会和工具建立关系,但会和一个有记忆、懂你、能与你“心有灵犀”的AI建立关系。


以下为当天《今夜科技谈》直播沉淀,由极客公园整理。


一、热潮之下,哪些Agent产品已崭露头角?


张鹏:在过去一段时间,所有人都在讨论Agent,认为这可能是现阶段的一个重要议题,也是创业公司的难得发展机会。


我看到拾象科技对Agent体系做了比较深入的研究,也体验和分析了很多相关产品。我想先听听两位,最近哪些Agent相关的产品给你们留下了比较深刻的印象?为什么?


李广密:我自己印象最深的是两个:一个是Anthropic的Claude在编程能力上的表现,另一个是OpenAI ChatGPT的Deep Research功能。


关于Claude,主要是它的编程能力。我有一个观点:编程(Coding)是衡量AGI最关键的先验指标。如果AI不能规模化、端到端地进行软件应用开发,那么在其他领域的进展也会比较慢。我们必须先在Coding这个环境下实现很强的ASI(Artificial Superintelligence),其他领域才可能加速。或者说,我们先在数字环境下实现AGI,再拓展到其他领域。


关于Deep Research,它对我自己的帮助非常大,我几乎每天都在用。它其实就是一个搜索Agent,帮我检索了大量的网页和资料,体验很好,极大地拓展了我的研究空间。


张鹏:凯祺,从你的视角看,哪些产品给你留下了深刻印象?


钟凯祺(Cage):我可以介绍一下我平时观察和使用Agents的思维模型,然后在每个分类下介绍一两个代表性产品。


首先,大家经常会问:通用Agent还是垂直Agent?我们认为通用Agent领域做得最好的是“模型即Agent”(Model as Agent)比如广密刚才提到的OpenAI的Deep Research,以及OpenAI新发布的o3模型,它其实就是一个标准的“模型即Agent”的范例。


它把Agent的所有组件——大语言模型(LLM)、上下文(Context)、工具使用(Tool Use)和环境(Environment)——全都缝合到了一起,并进行了端到端的强化学习训练。训练之后的结果就是,各类Agent执行信息检索的任务它都能完成。


所以我的一个“暴论”是:通用Agent的需求基本上就是信息检索和轻度代码编写这两类,而GPT-4o已经完成得非常好了。因此,通用Agent市场基本上是大模型公司的主战场,创业公司很难仅仅服务于通用需求来做大。


让我印象比较深刻的创业公司基本都聚焦在垂直(Vertical)领域。


如果我们先说ToB的垂直领域,可以类比人的工作分为前台工作和后台工作


后台工作的特点是重复性强、对高并发要求高,通常有一条很长的SOP(Standard Operating Procedure),其中很多任务非常适合AI Agent去一对一地执行,并且适合在比较大的探索空间里进行强化学习。这里比较有代表性的,我想分享的是一些面向AI for Science的创业公司,他们做的是Multi-agent system(多智能体系统)。


在这个系统里,各种科研任务都包含在内,比如文献检索、实验规划、预测前沿进展以及数据分析等。它的特点是,不再是像Deep Research那样的单个Agent,而是一个非常复杂的、能针对科研系统做到更高分辨率的系统。它有一个很有意思的功能叫“Contradiction Finding”,可以处理对抗性的任务,例如发现两篇顶级期刊论文之间的矛盾之处。这代表了研究型Agent里一种非常有意思的范式。


前台工作很多时候是和人打交道,需要做外联,目前比较适合的是语音Agent,例如医疗领域的护士电话回访、招聘、物流沟通等。


这里我想分享一家叫HappyRobot的公司,他们找到了一个听起来很小的场景,专门在物流和供应链领域做电话沟通。比如,一个卡车司机遇到问题,或者货到了之后,Agent能快速给他打电话。这里发挥了AI Agent一个很特别的能力:7天24小时无间断地响应并快速做出反应。这对于物流的大部分需求来说已经足够了。


除了以上两大类,还有一些比较特别的,比如Coding Agent。


二、从Copilot到Agent,是否存在一条更务实的成长路径?


钟凯祺:在代码开发这个领域,最近创业热情很火热,一个很好的例子是Cursor。Cursor 1.0的发布,基本上把一个原来看起来是Copilot(辅助驾驶)的产品,变成了一个完全的Agent产品。它能后台异步操作,有记忆功能,这正是我们对Agent的想象。


它和Devin的对比很有意思,给我们的启发是:做Agent这件事,并不一定要“以终为始”,一开始就瞄着完全自动化的Agent去做,它可以先从Copilot做起。在这个过程中收集用户数据、做好用户体验、占领用户心智,然后慢慢地转型。国内做得不错的,像Minus AI,他们最早的产品也是从Copilot形态做起的。


最后,我还会用“环境”这个思维模型来区分不同Agent。比如,Manus的环境是虚拟机(Virtual Machine),Devin的环境是浏览器,flowith的环境是笔记本,SheetZero的环境是表格,Lovart的环境是画布等等。这个“环境”就对应了强化学习里的环境定义,这也是一种值得参考的分类方式。


张鹏:我们深入聊聊Cursor这个例子,它背后的技术栈和成长路径是怎样的?


钟凯祺:自动驾驶的例子就很有意思,直到今天,特斯拉也不敢真的把方向盘、刹车和油门去掉。这说明在很多关键决策上,AI还没办法完全超越人类。只要AI的能力和人类差不多,一些关键决策就一定需要人类介入。这正是Cursor一开始就想得比较明白的地方。


所以他们最早贴合的特性,就是一个人类最需要的功能:自动补全(Autocompletion),它把这个功能做成了Tab键触发,随着Claude 3.5这样的模型出来,Cursor把Tab的准确率提高到90%以上。在这种准确率下,我可以在一个任务流中连续使用5到10次,心流体验就出现了。这是Cursor作为Copilot的第一个阶段。


第二个阶段,他们做的功能是代码重构(Code Refactoring)。Devin和Cursor都想做这个需求,但Cursor做得更巧妙。它会跳出一个对话框,当我输入需求时,它可以在文件外开启一个平行的修改模式来重构代码。


这个功能刚出来时准确率也不高,但因为用户对它的预期是Copilot,所以大家都能接受。而且他们很准确地预判到,模型的coding能力一定会快速提升。所以他们一边打磨产品功能,一边等待模型能力提升,Agent能力就很顺利地浮现了。


第三步就是我们今天看到的Cursor状态了,一个相对端到端的、在后台(background)运行的Agent。它背后有一个像沙盒一样的环境,我甚至可以在上班时把不想做的任务布置给它,它可以在后台用我的计算资源去完成,与此同时,我能专注于自己最想做的核心任务。


最后,它以异步交互的形式,像发邮件或飞书消息一样,把结果告诉我。这个过程很顺利地实现了从Copilot到Autopilot(或者说Agent)的转型。


关键还是要抓住人的交互心智,从一开始让用户更乐于接受同步交互,这样就能收集到大量的用户数据和反馈。


三、为何Coding是通往AGI的“关键试炼场”?


张鹏:广密刚才说“Coding是通向AGI的关键,如果不能在这个领域实现ASI(超级智能),其他领域也很难。”为什么?


李广密:有几个逻辑。第一,Code这个数据是最干净、最容易闭环,并且结果是可以验证的。我有一个猜想,Chatbot可能没有数据飞轮(一种反馈循环机制,通过从交互或流程中收集数据,持续优化AI模型,进而产生更优的结果和更有价值的数据)。但Code领域有机会跑出数据飞轮,因为它可以进行多轮的强化学习,而Code是跑多轮强化学习的关键环境。


我一方面把Code理解成编程工具,但更愿意把它理解成一个实现AGI的环境。AGI有可能最先在这个环境下实现,因为这个环境最简单,它能锻炼AI的核心能力。如果AI连一个端到端的应用软件开发都做不了,那在其他领域就更难了。如果它在未来一段时间无法大规模替代基础的软件开发工作,那在其他领域也很难。


而且,coding能力上来了,模型的指令遵循能力也会上来。比如处理很长的prompt,Claude就明显要强一些,我们猜测这跟它的coding能力有逻辑关系。


另外一个点,我想未来的AGI会先在数字世界实现。未来两年,Agent能做人在手机和电脑上操作的几乎所有事情。一方面通过简单的coding完成,如果不行,它还可以调用其他虚拟工具。所以,先在数字世界里实现AGI,让它跑得比较快,这是一个大的逻辑。


四、如何判定一个好Agent?


张鹏:Coding是这个世界里的“万用之机”,有了它,AI就可以去构建和创造。而且编程这个领域相对结构化,适合AI发挥。当评价一个Agent的好坏时,除了用户体验,你们会从什么视角去评价一个Agent的潜力?


钟凯祺一个好的Agent首先得有一个环境来帮助构建数据飞轮,而且这个数据本身要是可验证的。


最近Anthropic的研究员提得比较多一个词叫RLVR(Reinforcement Learning from Verifiable Reward),其中的“V”就是指可验证的回报。代码和数学就是非常标准的可验证领域,任务做完后,立马能验证对错,数据飞轮就自然地建立起来了。


所以,构建一个Agent产品,就是要构建这样一个环境。在这个环境里,用户执行任务的成功或失败都不重要,因为现在的Agent一定会失败。关键是在失败时,它能收集到有信号的数据,而不是噪音数据,来指导产品本身的优化。这些数据甚至可以作为强化学习环境的冷启动数据。


第二,产品是否做得足够“Agent Native”。就是说,在设计产品时,要同时思考人和Agent的需求。一个典型的例子是The Browser Company,它为什么要做一款新的浏览器?因为之前的Arc纯粹是为了提升人类用户的效率而设计的。而他们新的浏览器在设计时,很多新功能未来是能给AI Agent自己使用的。当产品的底层设计逻辑发生改变,这就非常重要了。


从结果上来说,客观评估也很关键。


1. 任务完成率+成功率:首先任务得能跑完,这样用户至少能收到一个反馈。其次是成功率。一个10步的任务,如果每一步准确率都是90%,那最终成功率只有35%。所以必须优化好每一步之间的衔接。目前行业里一个及格线可能是五成以上的成功率。


2. 成本和效率:包括计算成本(token cost)和用户的时间成本。如果GPT-4o跑一个任务3分钟,而另一个Agent要跑30分钟,这对用户是很大的消耗。而且这30分钟里,算力消耗是巨大的,这会影响规模效应。


3. 用户指标:最典型的是用户粘性。用户在尝鲜后是否愿意反复使用?比如日活/月活(DAU/MAU)比例、次月留存率、付费率等,这些是避免公司只有“虚假繁荣”(five minutes of fame)的根本指标。


李广密:我再补充一个视角:Agent与当前模型能力的匹配程度。今天Agent 80%的能力依赖于模型这个引擎。比如,GPT到了3.5,多轮对话的通用范式出现了,Chatbot这种产品形态就行得通了。Cursor的崛起也是因为模型发展到了Claude 3.5的水平,它的代码补全能力才得以成立。


像Devin其实出来就得偏早了,所以创始团队对模型能力的边界理解非常重要,要清楚今天以及未来六个月模型能到哪一步,这与Agent能实现的目标息息相关。


张鹏:什么叫“AI Native”的产品?我觉得AI Native的产品不只是给人用的,它必须同时服务于AI。


换句话说,如果一个产品里没有合理的数据去调试,没有为未来AI的工作环境做搭建,那它只是把AI当成一种降本增效的工具,这样的产品生命力是有限的,很容易被技术浪潮淹没。一个真正的AI Native产品,应该是内建了服务AI和人类的双向机制。简单来说,AI在服务用户的时候,用户有没有也在服务AI?


钟凯祺:我非常喜欢这个概念。Agent的数据在现实世界里是不存在的,没有人会在完成任务时把思考过程一步步拆解清楚。那怎么办?一个方法是找专业的标注公司,另一个方法就是要撬动(leverage)用户,把用户的真实使用方式和Agent自身的运行过程捕捉下来。


张鹏:那如果要通过Agent的方式让人类给AI“投喂”数据,什么样的任务是最有价值的?


钟凯祺与其想着用数据服务AI,不如想AI有什么长板应该被放大。比如科学研究,在AlphaGo之前,人类觉得围棋和数学是最难的。但用了强化学习之后发现,这些对AI反而是最简单的。在科学领域也一样,人类历史上已经很久没有一个学者能通晓每个学科的犄角旮旯了,但AI可以。


所以我认为,科学研究这类任务对人类来说很难,但对AI不一定难。正因如此,我们才要多找一些数据和服务来支持它。这类任务的回报比大部分任务更verifiable,未来甚至可能是人类帮AI“摇试管”,然后告诉AI结果是对是错,帮助AI一起去点亮科技树。


李广密:一开始的数据冷启动是必要的。做一个Agent就像做一个创业公司,创始人肯定要做冷启动,要亲力亲为。接下来,搭建环境就很重要,决定了Agent往哪个方向走。再往后,更重要的是搭建奖励(Reward)系统。我觉得环境和奖励这两个因素非常关键。在这个基础上,Agent的创业者做好这个Agent的“CEO”就好了。今天AI已经能写出人类看不懂但能运行的代码,我们不一定非要理解强化学习端到端的逻辑,只要搭好环境、设好奖励就行。


五、Agent的商业模式将走向何方?


张鹏:最近我们看到很多ToB领域的Agent,尤其是在美国,它们的商业模式和增长模式有什么变化吗?还是有新的模式出现?


钟凯祺:现在最大的一个特点就是,有越来越多的产品从偏C端切入,在公司组织里自下而上(bottom-up)地被使用。最典型的就是Cursor。除了它,还有很多AI Agent或Copilot产品,大家愿意自己先用起来。这就不再是传统SaaS那种需要先搞定CIO、一对一签单的模式了,至少第一步不是这样。


另一个有意思的产品是OpenEvidence,他们做的是医生这个群体。他们先把医生群体打下来,然后渐渐植入医疗器械和药品的广告。这些业务不需要一开始就和医院谈,因为和医院谈非常慢。AI创业最关键的就是速度,光靠技术护城河是没用的,需要通过这种自下而上的方式增长。


关于商业模式,现在有一个趋势,就是慢慢地从基于成本(Cost-based)定价走向基于价值(Value-based)定价。


1. 基于成本:这像传统云服务,在CPU/GPU成本之上加一层软件价值。


2. 按次收费:在Agent这边,一种是按“动作”(Action)收费。比如我前面提到的物流Agent,给卡车司机打一个电话收几毛钱。


3. 按工作流收费:更高一层的抽象是按“工作流”(Workflow)收费,比如完成一整个物流订单。这离成本端更远,离价值端更近了,因为它真的参与到了工作中。但这需要一个相对收敛的场景。


4. 按结果付费:再往上,就是按“结果”(Result)付费。因为Agent成功率不高,用户希望为成功的结果付费。这要求Agent公司对产品有极高的打磨能力。


5. 按 Agent 本身付费:未来可能会真正地按“Agent”付费。比如,有一家叫Hippocratic AI的公司做AI护士,在美国招一个人类护士大概是每小时40美金,而他们的AI护士每小时只要9到10美金,降了四分之三的成本。在美国这种人力昂贵的市场,这非常合理。如果Agent未来能做得更好,我甚至可以给它发奖金、发年终奖。这些都是商业模式上的创新。


李广密:我们最期待的是按价值(Value-based)的计价方式。比如Manus AI做一个网站,这个价值是不是值300美金?它做一个应用,是不是值5万美金?但今天的任务价值还不好定价。如何建立一个好的衡量计价方式,是值得创业者去探索的。


另外,刚才凯祺提到按Agent付费,这就像企业要和员工签合同一样。未来我们雇佣了Agent,是不是要给它发“身份证”?是不是要签“劳动合同”?这其实就是智能合约。我比较期待未来Crypto领域的智能合约如何应用到数字世界的Agent上,当任务完成后,通过一个好的衡量计价手段,去分配经济利益。这可能是Agent与Crypto智能合约结合的机会。


六、人类与Agent的协作关系会变成什么形态?


张鹏:最近在Coding Agent这个方向,有两个词讨论得比较多:“Human in the loop”和“Human on the loop”,这是在探讨什么?


钟凯祺:“Human on the loop”是指人尽可能减少在循环中的决策,只在关键时刻参与一下。有点像特斯拉的FSD,当系统遇到危险决策时,会警告人类接管油门刹车。在虚拟世界中,这通常指非即时的、异步的人机协作。人可以对AI拿不准的关键决策进行干预。


“Human in the loop”则更偏向于AI会时不时地“ping”你一下,来确认某件事。比如Minus AI,它的右半边有一个虚拟机,我可以实时看到它在浏览器里做什么,这就像一个打开的白盒,我能大概知道Agent想做什么。


这两个概念不是非黑即白的关系,而是一个光谱。现在更多的是“in the loop”,人还是要在很多关键点上做审批。原因很简单,软件还没到那个阶段,出了问题总得有人负责。油门和刹车一定是去不掉的。


可以预见的是,未来高重复性的任务,最终结果一定是人只看摘要,自动化程度会非常高。对于一些难题,比如让AI看病理报告,我们可以把Agent的“假阳率”调高一点,让它更容易觉得“有问题”,然后“on the loop”地把这些案例作为邮件发给人类医生。这样,虽然人类医生需要复核的案例多了,但Agent所有判断为“阴性”的案例都可以被顺利审批掉。如果病理报告中只有20%真的有难度,那人类医生的工作带宽就已经放大了5倍。所以不用太纠结于“in”还是“on”,只要找到好的结合点,就能把人机协作做得很好。


李广密:鹏哥问的这个问题背后,其实有一个巨大的机会,就是“新的交互”以及“人与Agent如何协同”。这可以简单理解成在线(同步)和离线(异步)。比如我们开会直播,必须实时在线。但如果我作为一个CEO给同事布置任务,项目推进是异步的。


这里面更大的意义在于,当Agent大规模落地后,人与Agent如何协同交互,以及Agent与Agent之间如何协同交互,这是非常值得探索的。今天我们还是通过文本与AI交互,但未来与Agent的交互方式会有很多种。有些可能在后台自动化运行,有些则需要人在前面看着。探索新的交互是一个巨大的机会。


七、能力过剩、需求不足,Agent的“杀手级应用”何时出现?


张鹏:Coding Agent总体还是围绕IDE的延长线在做。未来会不会有变化?如果大家都挤在这条路上,后来者要如何追赶Cursor?


钟凯祺:IDE只是一个环境,再去复刻一个IDE本身的价值不大。但在IDE或另一个好的环境里做Agent,本身是有价值的。我会思考它的用户到底只是专业开发者,还是能拓展到专业开发者之外“平民开发者”——那些有很多自动化需求的白领工作者。


现在缺的是什么?不是供给能力,因为Cursor这类产品已经把AI的coding供给能力放大了10倍甚至100倍。以前我要做一个产品,需要外包一个IT团队,试错成本很高。现在理论上我只要说一句话,花20美元的月费就能试错。


现在缺的是需求。大家都在用老的需求去套新技术,有点“拿着锤子找钉子”的状态。目前的需求大多是做落地页(Landing page)或者基础的玩具网站。未来需要找到一个收敛的产品形态。这有点像当年推荐引擎出来的时候,它是一个很好的技术,后来出现了一种叫“信息流”的产品形态,把推荐引擎真正带给了大众。但AI Coding领域还没有找到像“信息流”这样的杀手级产品。


李广密我觉得Coding有可能拿走整个大模型产业阶段性90%的价值。这个价值怎么长出来?今天的第一幕还是服务全球3000万程序员。我举个例子,Photoshop服务的是全球两三千万专业设计师,门槛很高。但是当剪映、Canva、美图秀秀出来后,可能有5亿甚至更多的用户都可以使用这些工具,并做出更火爆的内容。


Code有一个好处,它是一个创意的表达平台。这个社会上90%以上的任务都可以通过Code来表达,所以它有可能变成一个创意平台。以前应用开发门槛非常高,大量的长尾需求没有被满足。当门槛大幅降低后,这些需求就会被激发出来。


我期待的是“应用的大爆发”。移动互联网生成的最大数据是内容,而AI这一波生成的最大内容可能就是新的应用软件。这就像优酷、爱奇艺这种长视频平台和抖音的区别。你可以把大模型比作摄像头,在它之上还能做出抖音和剪映这样的杀手级应用。这可能就是所谓的“Vibe Coding”(氛围编程)的本质,它是一个新的创意平台。


张鹏:要提升Agent的输出价值,输入(input)也变得非常重要。但在产品和技术上,有什么方法可以提升输入质量,从而确保更好的输出呢?


钟凯祺:在产品上,我们不能觉得用户用不好产品是用户的问题。要下功夫最关键的一个词就是“上下文”(Context)。一个Agent能否建立“上下文感知”(Context Awareness)?


举个例子,如果我在互联网大厂里写代码,Agent不光要看我手头的代码,还要看整个公司相关的代码库(Codebase),甚至要看我在飞书里和产品经理、同事的对话,以及我之前的编码和沟通习惯。把这些上下文都给Agent,我的输入才能更高效。


所以对于Agent开发者来说,最关键的就是要把记忆(Memory)机制和上下文的连接能力做得足够好,这也是Agent基础设施(Infra)的一大挑战。


此外,对于开发者来说,怎么做好强化学习的冷启动数据、怎么定义清晰的奖励(Reward)也很重要。这个奖励背后意味着,当用户表达不清晰时,你怎么把他的需求拆解出来。比如,OpenAI的Deep Research在我问得不清晰时,会先给出四个引导性问题。在和它交互的过程中,我其实也在想清楚自己的需求。


对于今天的用户来说,最主要还是要想怎么清晰地表达需求,以及怎么验收需求。虽然不用做到“以终为始”,但要对好坏有一个大概的预期。我们写Prompt也要像写代码一样,有清晰的指令和逻辑,这样能避免很多无效的输出。


李广密:我补充两点。第一,上下文的重要性。我们内部经常讨论,上下文做好了,会有新的支付宝、PayPal级别的机会。


以前电商看的是成交总额(GMV),以后看的是任务完成率。而任务完成,一边是智能,另一边就是上下文。比如我要做一个个人网站,如果把我的Notion笔记、微信数据、邮件数据都提供给AI,那我的个人网站内容肯定会非常丰富。


第二,自主学习。搭好环境后,Agent要能迭代,这非常关键。如果不能持续学习迭代,结果就是被模型本身吃掉,因为模型就是一个学习系统。上一波移动互联网,没有做机器学习和推荐的公司都没做大。这一波如果Agent做不好端到端的自主学习和迭代,我觉得也做不起来。


八、巨头博弈下,还有哪些变化和机会?


张鹏:我们怎么判断未来Agent的能力会以一个超级接口的形式出现,还是离散地分布在各个场景里?


钟凯祺:我看到一个比较大的趋势是,第一,肯定是多智能体(Multi-agent)的。即便是完成一个任务,在Cursor这类产品里,做代码补全和做单元测试的可能是不同的Agent,因为它们需要的“性格”和擅长的点不一样。


第二,入口会不会有变化?我觉得入口是一个二阶的问题。首先要发生的是,大家有很多Agent,并和它们协作。这些Agent背后会支撑起一张网络,我称之为“Botnet”。比如未来购物,60%以上的固定消费可能都由Agent帮我完成。


在生产力场景也一样,未来程序员的每日例会可能会被Agent之间的协作所取代,由它们推送指标异常和产品开发进展。当这些发生后,入口的变化才可能出现。那个时候,API的调用也不再主要是人类调用,而是Agent之间互相调用。


张鹏:那些有能力的大厂,比如OpenAI、Anthropic、Google、Microsoft,在Agent上都是什么样的决策和行动状态?


李广密:我脑子里一个关键词是“分化”。去年大家都在追赶GPT-4,但现在能做的事更多了,各家都开始分化。


第一个发生分化的就是Anthropic。因为它比OpenAI晚,综合能力没那么强,所以它就专注在Coding上。我感觉它摸到了通往AGI大方向的第一张大牌,就是Coding Agent。他们可能认为,通过Coding可以实现AGI,可以带来指令遵循能力和Agent能力,这是一个逻辑自洽的闭环。


但OpenAI手上的大牌就更多了。第一张是ChatGPT,Sam Altman可能想把它做成10亿日活的产品。第二张是它的“o”系列模型(GPT-4o等),预期很高,能带来更多泛化能力。第三张是多模态,它的多模态推理能力上来了,未来在生成上也能体现。所以,Anthropic摸到了一张大牌,OpenAI摸到了三张。


另一个大厂是Google。我觉得到今年年底,Google可能会在全方位赶上。因为它既有TPU,又有Google Cloud,有顶尖的Gemini模型,还有Android和Chrome。你在全球找不到第二家拥有所有这些要素,还几乎不依赖外部的公司。Google端到端能力是非常强的,很多人担心它的广告业务会被颠覆,但我感觉它未来可能会找到新的产品结合方式,从一个信息引擎变成一个任务引擎。


你看苹果,因为没有自己的AI能力,现在迭代就很被动。而微软是以开发者见长的,但Cursor和Claude其实抢了不少开发者的注意力。当然微软的盘子非常稳,有GitHub和VS Code,但它也必须拥有非常强的AGI和模型能力。所以你看它也宣布GitHub的首选模型之一变成了Claude,并迭代自己的开发者产品。微软在开发者这块必须守住,否则根基就没了。


所以大家开始分化了。可能OpenAI想成为下一个Google,Anthropic想成为下一个Windows(靠API活着)。


张鹏:那与Agent相关的基础设施(Infra)有哪些变化和机会?


钟凯祺:Agent有几个关键组件。除了模型,第一个就是环境(Environment)。Agent开发最早期,80%的问题都出在环境上。像早期的AutoGPT,要么用Docker启动,非常慢,要么直接在本地电脑部署,非常不安全。如果一个Agent要和我一起“上班”,我就得给它配一台“电脑”,所以环境的机会就出来了。


配“电脑”有两大需求:


1. 虚拟机/沙盒:提供一个安全的执行环境。任务做错了能回退,执行过程不能伤害实际环境,并且要能快速启动、稳定运行。像E2B、Modal Labs这样的公司都在提供这类产品。


2. 浏览器:信息检索是最大需求,Agent需要到各种网站上爬取信息。传统的爬虫容易被封,所以需要给Agent搭一个专用的、能理解信息的浏览器。这就应运而生了像Browserbase、Browser Use这样的公司。


第二个组件是上下文(Context)。这包括:


  • 信息检索(Retrieval):传统的RAG公司还在,但也有新的公司,比如MemGPT,它为AI Agent开发轻量化的记忆和上下文管理工具。


  • 工具发现:未来工具会非常多,需要一个像“大众点评”一样的平台来帮助Agent发现和挑选好用的工具。


  • 记忆(Memory):Agent需要一套能模拟人类复杂的长短期记忆结合能力的Infra。


第三个组件是工具(Tools)。包括简单的搜索,也包括复杂的支付、自动化后端开发等。


最后,当Agent能力再强一些,一个重要的机会就是Agent安全(Agent Security)。


李广密:Agent Infra非常重要。我们可以“以终为始”地想,三年后,当几万亿的Agent在数字世界里执行任务,那Infra的需求就太大了,这将重构整个云计算和数字化世界。


但今天我们还不知道什么样的Agent能做大,它到底需要什么样的Infra。所以现在对创业者是一个非常好的窗口期,可以和那些做得好的Agent公司共同设计(co-design)和共创Infra工具。


我觉得今天最重要的,第一是虚拟机,第二是工具。比如未来的Agent搜索肯定和人的搜索不一样,会产生天量的机器搜索需求。现在全网人类的搜索每天可能200亿次,未来机器搜索可能是几千亿甚至上万亿次。这种搜索不需要给人类做排序优化,可能一个大的数据库就够了,这里有很大的成本优化和创业机会。


九、当AI不再只是大模型,它会往哪个方向进化?


张鹏:Agent始终绕不开模型,站在今天,你觉得模型技术在过去两年里走过了哪些关键的台阶?


李广密:我觉得关键的里程碑(milestone)可能就两个。一个是GPT-4代表的规模化定律(Scaling Law)范式,即在预训练阶段,扩大规模仍然是有效的,它能带来通用的泛化能力。


第二个大的里程碑是“o”系列模型所代表的“模型会思考”的范式。它通过更长的思考时间(思维链),显著提升了推理能力。


我觉得这两个范式是今天AGI的左膀右臂。在这个基础上,Scaling Law远远没有停止,思考模式也会继续。比如,在多模态下可以继续Scaling,也可以把“o”系列的思考能力加到多模态上,这样多模态就能有更长的推理能力,生成的可控性和一致性就会变得非常好。


我自己的感觉是,未来两年可能比过去两年进步要更快。今天可能正处在一个全球几千名顶尖AI科学家,共同推动人类科技文艺复兴的状态,资源充足,平台也具备了,很多地方都可能出现突破。


张鹏:你会比较期待接下来一两年,在AI领域看到哪些技术台阶的实现和跳跃?


钟凯祺:第一个是多模态。现在多模态的理解和生成还是比较零散的,未来一定会走向“大一统”,即理解和生成一体化。这会极大地打开产品的想象力。


第二个是自主学习。我很喜欢Richard Sutton(强化学习之父)提出的“经验的时代”(the era of experience)这个概念,即AI通过在线执行任务的体验来提升自己的能力。这在以前是看不到影子的,因为没有基座的世界知识。但从今年开始往后,这会是一个持续发生的事情。


第三个是记忆。如果模型真的能在产品和技术层面把Agent的记忆做好,带来的突破会非常大。产品的粘性才真正出现。我感觉GPT-4o开始有记忆的那一刻,我才真正对ChatGPT这款应用产生了粘性。


最后是新交互。会不会有不再是文字输入框的新交互?因为打字这个门槛其实挺高的。未来会不会有更符合人类直觉和本能的交互方式?比如,我有一个“永远在线”(Always-on)的AI产品,它在后台不断地听我说话、异步思考,在我灵感迸发的那一刻,能捕捉到关键的上下文。我觉得这些都是我比较期待的。


张鹏:确实,今天我们面临的挑战和机遇并存。一方面,我们不能被技术发展的速度“拉爆”,要保持持续的关注。另一方面,今天的AI产品正在从“工具”走向“关系”。人不会和工具建立关系,但会和一个有记忆、懂你、能与你“心有灵犀”的AI建立关系。这种关系本质上就是习惯和惯性,这也是未来重要的壁垒。


文章来自于微信公众号“极客公园”。


9872 Articles 1699538 Views 950300 Fans

Comment (11)

User avatar

AI Agent要成为同事,未来可期呀!

User avatar

简直是科幻电影照进现实,太不可思议!

User avatar

别太乐观,AI的“同事”可能只是个高级打扫机器人!

User avatar

感觉未来上班要配个AI助手,这样效率肯定高!

User avatar

嘿嘿,AI当同事,想想都觉得好玩!

User avatar

这种趋势,我支持!人类的进化方向就是这样!

User avatar

厉害了,厉害了,AI要上岗,这波操作我给跪了!

User avatar

挺有意思的,但总觉得有点…不踏实

User avatar

别高兴太早,AI会不会把我们都变成数据?

User avatar

感觉我们人类都要被AI挤到街边卖煎饼了!

睡觉动画