随着2025年大模型能力的快速提升,我们是否能在每个细分金融场景中,迅速搭建一个类似Manus这样的智能助理,以更低的成本、更快的速度支持业务落地?我们不妨一步一步来拆解这个问题,深入探讨这种创新模式的可行性。
在传统金融的视野中,个人或企业的信用历史和声誉占据了核心位置,相较之下,具体的交易细节往往被边缘化。这不是没有原因的。在这个框架下,信用被视作对一个人或企业的历史交易和行为的静态总结。例如,按时偿还贷款的个体在未来很可能会保持这种信赖的行为;同理,守信用的企业也会延续其正直的商业准则。
当人们走进银行申请贷款,银行通常首先会查看申请者的信用评分,来决策是否发放贷款及其额度。信用评分来源于个体过去的还款历史、开户数量和逾期情况等静态数据。在满足某些标准后,申请者就能获得贷款。而这种决策模式,很大程度上是基于对历史数据的高度概括和统计分析。相对来说,由于隐私和验证的问题,交易的细节数据并不经常被作为主要的参考。
当然,信用评估并不仅仅是看评分。其他因素,如年龄、家庭结构、抵押资产和担保方、从业行业属性等也被纳入考量。但真正关键的是理解每笔交易背后的逻辑和现实可行性,这确保了个体和企业能够保持持续的正向现金流。
这种在金融决策中对信用的重视和对交易细节的相对轻视,背后其实有其复杂的考量。简洁的信用评估流程使决策变得直观,而深入交易则需要收集更多的数据,花费更多时间,依赖更多的专业洞察和技术支持。合规和隐私也是一个棘手问题,深挖交易细节可能引发的法律和伦理争议,也使得不少金融机构选择了更为保守的策略。
2. 场景金融:对事不对人
与“对人不对事”的传统金融模式不同,场景金融更加关注交易的实际内容和细节,而不是单纯基于交易双方的信用。在传统金融的逻辑中,很多时候,个体或企业往往要在先获得成功,积攒了一定的财富和信用后,才能更容易地获得金融资源的支持。这种情境中,常常出现一个“先有鸡还是先有蛋”的困境:没有金融资源的支撑,如何获得首次的成功?因此,传统金融更像是对成功者的锦上添花;但对于大多数个体和小型企业,他们更期待的是像春风化雨那样的滋润。
相比于传统金融主要依赖静态的信用数据,场景金融则更深入地挖掘丰富的交易过程数据进行风险评估,这其中包括大量的非结构化交易数据,例如合同、发票和转账单等。这就意味着,在场景金融领域,拥有强大的科技支持和数据处理能力显得尤为关键。
举例来说,一个公司的产品非常热销,如果它希望获取短期融资以支付货款并扩大生产规模,金融机构可能会要求提供客户的订单,与供应商的合同、近期订单记录、物流信息,甚至产品质量报告等。这些金融机构可能采用先进的AI技术来高效处理交易细节中的数据,其中也包括大量的非结构化数据,进而基于这些数据来评估风险并决定是否发放贷款。
在这种场景下,如ChatGPT、DeepSeek这样的大模型可以帮助金融机构深入理解交易的细节,以及每一笔交易背后的决策和执行过程。
GPT 大模型诞生前,机器处理非结构化数据(如图片、文字、视频)困难重重,需借助专业工具转化为结构化数据,效率低且成本高。比尔・盖兹盛赞 GPT 大模型是自现代图形桌面环境(GUI)以来最具变革性的技术突破。GUI 虽优化了人机交互,但软件定制图形界面成本不菲。过去针对场景金融,每一个场景要建设一个系统;一千个场景,就要建设一千个系统。为了考虑系统的整合,还得对这些不同的场景进行抽象、解耦,极大地增加了产品经理和架构师的工作量。
而今天,GPT 模型让 AI 能理解非结构化数据,实现人机对话、图片自动打标签、图片和文件自动分类、代码自动生成、网页自动生成、网页流程自动化执行和各种工具/API的调用,大幅降低人机交互成本。
例如在一个建筑工地的场景金融中,AI 大模型可直接解读工地、仓储监控视频、施工现场人员聊天对话等原始非结构化数据,再结合传统的业务系统中的数据,精准判断业务的真实性以及进度,能降低运营成本,精准适配金融资源与业务。AI大模型通过挖掘非结构化数据商业价值,实现信息流、资金流与物流融合,让跨领域协同更高效。
场景金融的“Manus”包括下面主要四个组件:
Chat:智能化交互窗口
WorkSpace,File Folder:文件目录
WorkSpace, Code Folder:代码仓库
Browser:浏览器执行或者调用可信云桌面
下面对每个组件进行功能上的拆解:
Chat:智能化交互窗口

通过对话了解客户的背景和意图,回答客户的各种问题,推荐合适的场景金融业务,引导客户完成相关的业务流程。
按照客户的意图,全自动或者分步骤执行业务流程,并实时提供执行过程中的信息反馈。
支持在单一聊天窗口中引入客户、平台方及金融机构多方参与,通过实时互动快速达成业务共识,形成清晰、可执行的标准操作流程(SOP)。自动拆解SOP中的关键步骤,明确每一步所需的文件和凭证,标记审批节点,并自动记录与归档全过程。
集成Zoom、腾讯会议等多方会议工具,无缝扩展实时沟通与协作能力。
聊天窗口可智能识别并自动分类用户上传的各类文件、压缩包及文件夹,自动存储至Workspace对应目录。例如KYC环节中,客户身份证、营业执照等文件被自动归类到KYC专用目录,并自动解析成可直接阅读的Markdown文本,提高业务处理效率。
通过聊天的方式来自动生成文件,代码和其他内容。
2. WorkSpace,File Folder:文件目录

将Chat模块中的聊天过程、视频会议等记录为文件。
将Chat模块中达成共识的SOP保持为AI工作流文件,用于大模型来做详细落地的规划。
将SOP拆解为AI大模型可以理解可以执行的分步骤的文件,自动生成相应AI工作流需要的文件目录,例如Demo视频中的 Step01_KYC.md等文件和文件夹。
其他各种结构化数据和非结构化数据的存储、浏览和编辑。
3. WorkSpace,Code Folder:代码目录

可在此查看场景金融“Manus”的代码,实现系统透明化管理。
普通用户可通过自然语言对话或AI自主规划方式快速生成非核心功能代码。例如,在场景金融的SOP执行过程中,AI可自动生成特定业务场景所需的页面,如客户身份验证页面,自动从0-1生成对应代码与网页,并通过Browser模块直接浏览和执行,显著提升业务开发效率。
支持开发人员、架构师等专业用户通过单独对话或团队群聊模式,智能化地优化、更新核心代码。核心代码的修改需经过严格的标准审核流程,确保系统安全性和稳定性。
调用经过认证的第三方API、MPC插件,完成系统缺失的功能。
4. 浏览器执行或者调用可信云桌面

通过浏览器便捷查看和编辑Workspace中的文件、代码及相关内容,充当一个简易的文件编辑器和代码编辑器的功能。
系统支持自动执行AI规划的步骤,智能打开目标网页并自动填写所需信息(如用户身份、账户密码、居住地址等),显著提高操作效率。以场景金融为例,可自动访问工商信息平台、中登网等数据网站,对客户提供信息进行高效核验。
针对不支持嵌套展示的网页,系统可远程启动相应页面,并将实时运行画面反馈至浏览器内,直观引导客户完成每个步骤。
并非所有操作都能在浏览器中顺利完成。例如,视频编辑通常依赖桌面端软件,许多专业工具的复杂交互也只能在桌面环境下实现。处理大型或复杂文件时,也往往需要依托桌面软件进行高效操作。此外,一些工具的下载、编译和重新组合往往需要一个完整的操作系统支撑。因此,在场景金融中,构建一个可信的云桌面环境显得尤为重要。这不仅能够确保复杂任务的顺利执行,还能在保障数据安全的同时,实现更灵活、高效的业务操作。
对于安全等级极高的交互环节,如客户私有ERP、电商订单系统及其他机构的授信材料,可嵌套接入可信云桌面环境,确保敏感信息的安全和隐私保护,信息不会泄露。可信云桌面环境对可以访问的系统进行白名单控制,并且对网络流量和其他信息交互进行审计。
在可信云桌面中进一步集成多方可信任的AI大模型,例如满血版671B参数的DeepSeek等,大模型可实时识别云桌面内的操作和信息,自动生成详细业务报告,例如从客户ERP系统中读取的经营情况,并经脱敏处理后同步至Workspace指定目录,实现全流程的高效与安全。
5. 全新的交互方式:从人工现场尽调到智能化远程评估
过去,金融机构开展信贷审批通常需要客户经理实地走访,通过面对面访谈、现场勘察、拍照取证,并进入客户的ERP系统或订单系统查看运营数据,最终形成一份人工撰写的信审报告。这种方式不仅消耗大量的人力与时间成本,也容易出现信息遗漏或误判,影响信审质量。
在多方交互场景中,由于软件易于修改和快速迭代,大部分软件往往无法做到完全开源,这使得各方在使用时难以完全信任某一方提供的软件工具。然而,AI大模型则不同。例如,一个671B参数的开源大模型,可以通过文件校验轻松确认其原始性;且由于微调难度极高,篡改后的模型很难伪装成原版。更重要的是,大模型的输出结果依赖于其训练数据和逻辑推演,而非受限于交易中某一方的干预或影响。这意味着,在复杂的金融交易中,大模型能够作为一个中立可靠的“第三方中间人”,保持客观、公正,不偏向任何交易方,有助于建立信任基础。
而现在,场景金融可以远程调用一个类似“智能无人机”的AI助手,快速深入到客户现场。这个AI助手能自主与客户各部门团队进行智能对话与协作,制定与客户场景相匹配的AI工作流程SOP,自动采集包括生产车间运行视频、实时库存状况、订单数据、经营指标等多维信息,全程无需人工干预。内置的AI大模型可实时理解、处理并精准分析这些非结构化数据,自动生成一份结构清晰、全面准确的智能化信审报告。同时,该报告自动完成敏感经营数据的脱敏,确保信息传输、存储和使用均符合严格的数据安全与隐私合规要求。
文章中展示的Demo系统中Browser区域展示的四个网页,都是通过跟AI经过十几轮对话完成的,完全没有人工修改代码,包括网页中的内容自动填充功能。这些网页的内容与交互逻辑均可根据SOP中预先定义的输入输出要求及整体页面风格自动完成。今天的AI不仅能够快速生成所需页面,更擅长设计清晰、直观的交互逻辑,并提供系统架构层面的专业建议,例如如何巧妙地利用各类现有的开源工具与成熟框架,快速搭建高质量的完整系统。
设想一下,若场景金融数字化成本能大幅降低,未来是否能让 AI 大模型为每一笔融资量身定制数字化场景?如此一来,我们或许无需再构建复杂系统以覆盖多样场景,也无需再为复杂的抽象和解耦问题而烦恼。如此,团队便能将更多时间投入客户沟通和业务拓展,而宝贵的 IT 资源也可聚焦于那些拓展后有规模放大潜力的业务系统优化,实现资源的高效配置与价值最大化 。
过去的2023-2024年,我们目睹了AI大模型在单点任务上的飞速进步:它们能与客户自然交流、生成精美图片,甚至创作视频内容。然而,在现实世界的商业环境中,业务场景并非孤立单一,而是复杂、多环节的组合。传统的单点AI能力,难以理解和驾驭这种复杂性,导致AI技术往往停留于少数专业人士的小圈子中,难以真正落地到广大企业用户的实际业务之中。
而到了2025年,随着Claude、DeepSeek、GPT-4.5等AI大模型的不断进步,大模型对复杂的数字世界和物理世界的理解越来越深刻,以Manus为代表的新一代智能体开始崭露头角。这些AI智能体打破了以往的局限,不再局限于解决单个任务,而是通过巧妙的工程化与多智能体协作,用MCP协议调度各种现有的工具和API,实现业务执行的 “最后一公里”,达成对复杂业务场景的深度理解与端到端的自主运作。
有人或许认为Manus只是简单地整合了已有的工具和技术,但正如智能手机当年将电话、音乐、相机等功能无缝融合一样,Manus这样的智能体的真正革命性之处,恰恰在于将各个孤立的AI能力巧妙地组合成一个整体,带来了前所未有的用户体验与商业效率。
今天,人们依然习惯于用微信进行日常沟通交流,但在严肃场景下,仍然不得不回归到传统的软件系统完成任务。然而,我们有理由大胆设想,在很短的时间里,这一切将发生根本性的转变:未来的交互中,当人们在腾讯会议上开会或者群聊时,AI已能实时捕捉会议讨论的每一个细节,自动形成完整的业务共识,智能生成对应的标准操作流程(SOP)。会议尚未结束时,AI就已经在后台自动生成了所需的网页界面、代码和交互流程,会议讨论结束后,大家就可以立即开展实际业务。
这一幕或许听起来像科幻,但正是AI技术快速演进所带来的新现实。AI的真正价值,不仅在于优化现有的任务流程,更在于彻底重新定义人类与数字世界的交互方式,推动人类社会进入更高效、更协同、更具创造力的新时代。
发表评论 取消回复