AI热点 3 hours ago 105 Views 0 Comments

FlowithOS是我目前见到的自动化执行最强的Agent

AI中国
AI中国

Published 11391 Articles

昨晚 11 点,绕了好几道弯,我终于找朋友拿到了 FlowithOS 的内测码。这款产品昨天在 X 上挺火的,很多人转发。



体验了大半天之后,我非常兴奋。相比 Manus,或者 OpenAI 最近发布的 ChatGPT Atlas 浏览器,这款 Agent 产品的任务完成度还是相当高。


它让我看到了一些 Agent 的新曙光。


#01


当前 Agent 的痛点


今年,我用过非常多的 Agent 产品。Manus 刚发布那会,欣喜若狂。不过,用久了后又发现,它只能完成一些目标明确,且上下文简单的任务,比如深度研究、写 PPT、做网站。


这些任务的边界都很固定,它不需要理解外部环境,也不用根据实时变化调整策略。模型是在一个相对真空的环境中完成任务。


但具体到日常工作中,我们面对的任务往往更复杂,更琐碎。


写 PPT、做 Research 当然重要,但大家掰着指头想想,这样的任务,在我们一天的时间里,能占到 5% 吗?


比如此刻,我就一边写文章,一边查询从北京到上海的高铁票,然后还得给一个朋友准备个伴手礼,这些事,AI 能干吗?根本不能。


顶多我会问下 ChatGPT,给我推荐个 200 元左右的伴手礼。


但现在我已经放弃在类似的场景中求助 ChatGPT 了,因为上下文很难用一两句话描述清楚。比如我说,女生,30 来岁,喜欢户外,喜欢绿色。



通过几个简单标签描述的背景信息,ChatGPT 很难 Get 到,所以最后推荐出来的商品,还没我去小红书检索效率高。


关键是,即便给出来心仪的礼物,它也还是不能帮我购买。在这里,ChatGPT 的价值是信息检索。ChatGPT 很聪明,但它没办法做具体的事情。


我能理解为什么 ChatGPT 要做 Agent,以及 ChatGPT Atlas。


核心逻辑还是因为目前的产品形态只是一个更高阶的谷歌搜索,没有办法帮用户完成具体的任务。这种智能化程度,显然不够。


#02


FlowithOS 的探索


Agent 产品如果想要完成具体的任务,那一个重要的前提条件就是它需要能够像人一样看懂网页内容。


怎么讲?


过去几个月,很多 Agent 产品的思路是利用 MCP 的能力,让 Agent 具备手和脚。


比如买火车票的案例,如果 Agent 能够接入 12306 的 MCP,它自然而然就可以完成这项任务。


但现在,我感觉 MCP 只能解决 50% 的问题。因为我们要完成的任务,MCP 并不能一一涵盖。


甚至很多公司,出于竞争考虑,它也不会随意地开放自己的 MCP 给到第三方。


所以我的判断是,Agent 想要真正完成任务,必须具备理解应用的能力。


它得像人一样,知道自己正身处哪种环境。比如在淘宝,有购物车;但拼多多却没有。


这些基本的常识和认知,不需要每次都重新学习。


更进一步,Agent 还要能看懂页面结构,知道哪个按钮是加入购物车,以及在点击之前,可能需要先选择颜色、尺寸或数量。


只有当 Agent 拥有这种视觉理解力时,它才能真正具备在网页中自主行动的能力。


FlowithOS 让我看到了这种可能。


比如下面是我随便给他发的一个小红书链接,大家仔细看,在页面上有很多标有数字的小方格,这应该是他们在尝试理解小红书的页面。


具体什么技术,我也就不懂了。



FlowithOS 现在可以基于提示词,进行步骤的拆解、执行,直到最后产出结果。这样吧,我先给大家做几个演示。


平时我会在 X 上翻译一些视频,经常需要下载素材。这就是一个挺烦人的事情。我尝试让 FlowithOS 来干。我的提示词如下:


去这个网页(https://twitterxz.com/),帮我下载 X 链接中的视频:


https://x.com/NVIDIAAIDev/status/1980412464949821570


如果这事是我来干的话,需要三步:



第一步,打开网页,在输入框中输入 X 的链接。


第二步,点击 Parse Now 的按钮。


第三步,选择一个选项,然后点旁边的蓝色 Download 按钮。


对于一个经常使用电脑的人来说,这事当然不难。几秒钟就能搞定,连思考都不需要。


但对 Agent 来说,这几步却像跨越一座小山。它得先看懂网页结构,知道哪个输入框是放链接的。


再判断 “Parse Now” 到底是不是执行按钮;最后还得区分清楚下载区里那一排格式和分辨率选项。


这些在我们眼里再自然不过的动作,对 Agent 来说却是一连串视觉、逻辑与决策的挑战。


下面这张截图是 FlowithOS 的执行过程。


红框圈出来的部分大家看看,特有意思。


Agent 有模有样的先输入链接,再定位到 Parse Now 按钮,还懂得选择最高的分辨率进行下载。下载完之后提示我,视频已经放进 Downloads 文件夹。



卡了下时间,从开始到结束,耗时 1 分 42 秒。


我继续加大难度。指定让它下载低分辨率的视频,看看能否搞定。


下面是整个执行过程的 Gif,我未做任何剪辑。最后,Agent 出色的搞定了任务。没有一点拖泥带水。



市面上,很多 Agent 案例都是精心剪辑或者挑选过的。就刚刚这个下载的操作,我和同事前后执行了 7 次,都能够准确无误的完成下载任务。大家也可以去试试。


我同步测试了 ChatGPT Agent,得到了下面的提示:



既然如此,我想继续加大难度,看看跨应用多步骤的操作。


我计划让 FlowithOS 先看看某个小红书用户的主页,分析他喜欢什么,再去淘宝挑几个合适的礼物,放进购物车。下面是我的提示词:


查看 ID 为 591296581 的小红书博主主页,并根据她发布的社交媒体内容分析她的喜好,可以点开她发布的图片,仔细分析她的个人风格和喜好等等,请你根据分析出的个人喜好挑选出 3 个礼物,并在 7 分钟内完成以上操作。


然后帮我到淘宝网上搜索出这 3 个礼物,帮我选择合适的样式和规格,并点击“加入购物车”按钮加入到我的购物车里,商品价格在 500 元人民币以内,礼物要小众且特别的。


特别说明下,这位小红书博主我不认识。那天做案例时,平台首页刚好刷到她。我就随手做案例了,算是系统友情推荐的实验素材。这不侵权吧,手动尴尬脸。


同样,放一个执行过程的 Gif:



Agent 执行完成后,我打开淘宝,果然购物车里有三个商品。我很惊讶,怎么还有逗猫玩具?这太离谱了吧。难道搞错了?



紧接着,我又人肉看了下刚才博主的小红书主页。震惊了,果然她发过猫咪相关的帖子,而且确实是自己养的猫,人家还给猫过生日呢。



这次的案例你能感受到,它更加复杂。


首先,Agent 需要浏览小红书页面的所有帖子。紧接着,再基于帖子内容分析对方的喜好。最后,又得去淘宝,搜索、挑选商品,再加入购物车。


诚实的讲,这个案例我在 FlowithOS 中尝试了几次才成功。


因为我已经好久没用淘宝了。第一次让 Agent 执行任务时,结果刚打开首页,咔,一整个动画从天而降。双十一红包满天飞,花里胡哨一片。


Agent 当场懵了,不知道该怎么关掉这个广告。


我只好手动点掉那个营销弹窗,之后它才顺利继续,把商品挑选和加入购物车都跑完了(不过第二次测试,FlowithOS 又可以关掉弹窗,不稳定)。


但这也已经很强了。整个过程中,最难的其实是让 Agent 理解淘宝的逻辑。


比如找到商品后,在点击“加入购物车”之前,还要先选择颜色、尺码、规格。这些 FlowithOS 都能识别并正确操作。


我再给大家放一个执行过程中特有意思的 Gif。你能看到 Agent 搜索商品之后,确实在挑,和人一样,看了这页商品不满意后,滑走,继续看其他的选择。


他不会默认选商品第一个样式,而是会根据他分析出来的喜好挑样式,比如 Gif 中的,第一个样式不满意挑了另外一个商品的样式。



牛,牛,牛。好久没体验过这么酣畅淋漓的 Agent 产品了。


#03


写在最后


小红书上,有博主总结了这样一张对比图。FlowithOS 把之前 Flowith 产品中的画布和知识库也一并整合了进来,所以,它也具备了信息管理和沉淀的能力。


刚才我的评测大家也看到了,它自动化执行任务的能力,应该是目前我见过的所有 Agent 产品中,最强大的。



不过,这张图里有一点我不太认同。


作者似乎把 FlowithOS 归类成了一种 AI 浏览器。但我理解,它并不是一个浏览器层面的产品。


FlowithOS 更像是一个基于 Agent 的操作系统。浏览器只是它与世界交互的窗口之一,从名字也能看出来,它的后缀是 OS。


我猜测 FlowithOS 想做的事情可能会类似 ChatGPT 客户端,最近 OpenAI 收购了 Mac 上自然语言助手 Sky 的开发商。


OpenAI 这次收购,肯定不是单纯买个应用,而是看中 Sky 在 macOS 深度集和自然语言交互上的能力。


OpenAI 正在把 ChatGPT 变成一个操作系统级的智能助手。FlowithOS 应该也是类似的方向。


甚至,我个人觉得,浏览器在接下来的十年内,会逐渐式微。浏览器的本质是以人类视觉 + 手动操作为中心。


想想这两天的双十一就明白了。


我们要自己搜关键词,自己辨认广告和真实结果,然后点进详情页后,还得自己选颜色、尺码,手动加入购物车,再去结算、选地址、用红包、确认支付。 


整条链路几乎每一步都需要人看和点。而这套范式在 AI 时代已经太笨重。目前所有的 AI 浏览器,其实都是在旧有的范式上缝缝补补。


当然,我也不想过度吹捧 FlowithOS,它仍然有很多地方不成熟。毕竟刚刚发布,离理想中的高度可用还有很长的路要走。


就像 AI 大神 Andrej Karpathy 前两天说的那句话,今年是 Agent 新的十年的开始。


现在,Agent 算是有了雏形,但离成熟还有很长的路要走,还需要工程、产品、模型等方面的日积月累。


这次,FlowithOS,我感觉应该也会是 Agent 领域一个里程碑式的产品。


它至少把  Agent  朝着跨网页、跨应用的任务执行推进了一步。虽然有些场景中还不完善,但想想空间还真是蛮大的。


我感受到了新的可能。



文章来自于微信公众号 “AI产品阿颖”,作者 “AI产品阿颖”

AI中国

AI中国

11391 Articles 2076495 Views 950300 Fans

Comment (0)

睡觉动画