大模型与Agent技术在金融级智能运维的创新应用

分享概要

一、智能运维需求分析

二、大模型与Agent技术

三、Agent智能运维体应用

一、智能运维需求分析

1、IT运维需求分析

上图展示了完整的运维流程链，涵盖事前预防与事后处理的应急管理全过程。结合大模型技术的强大能力，我们可以在运维流程的各个环节逐步提升应急能力。例如，在故障预防阶段，利用大模型技术实现故障的提前发现与预警，从而增强故障预防能力。运维领域涉及数据中心的全方位管理，包括系统、主机、机房、硬件、软件、数据库以及操作系统等各个方面，均在我们的运维范围之内。整个流程图充分体现了运维工作的多面性与复杂性。

2、运维中痛点问题分析

1）跨知识领域。运维涵盖多个领域的知识体系。

2）风险预防。生产运行阶段频繁的变更操作带来了较高的风险，如何在变更前准确识别潜在风险并提前制定预防措施。

3）精准定位。如何在复杂的全链路环境中快速定位故障点，并识别受影响的纵向知识领域和横向关联层面。

大模型具有自然语言理解、超广泛的知识学习、知识泛化能力、自我批判、主动学习、长/短期记忆库等能力。

在运维领域中，结合大模型Agent框架，叠加周边的一些工具能力，配置RAG，解决多组合的复杂场景，就可以解决我们在运维领域的一些复杂问题。

3、运维需要大模型

运维工作高度依赖大模型技术，而大模型的效能则依赖于对运维知识的深度理解。在运维能力的右侧，涉及指标、日志、变更管理以及大量文本信息，包括变更计划、企业操作方案和操作手册等。这些内容构成了丰富的知识体系，需要进行系统化的整合。

对于我们而言，学习和理解如此复杂的知识体系存在较大挑战。然而，大模型通过学习海量文件和知识库，能够有效整合这些信息，并在此基础上进行运维风险分析。这一过程不仅可行，而且能够显著提升运维效率和风险管控能力。

二、大模型与Agent技术

1、大模型将成为颠覆式的技术创新

自2022年大模型问世以来，其发展速度令人瞩目。短短两年间，模型的参数规模从数十亿迅速增长至万亿级别，甚至即将迎来4000亿参数的开源模型。这种快速发展的原因在于大模型能够有效解决诸多业务问题，尽管目前仍处于基础起步阶段，但其未来的潜力巨大。

从行业分析来看，Agent技术最早可追溯至20世纪80年代，如今已广泛应用于大模型中。Agent技术通常分为多个层次，其中第一层次主要作为辅助工具，类似于传统模型针对特定领域的工作，能够完成重复性和自动化任务。

2、AI能力等级分类

在当前的运维实践中，Chatbot作为一种交互性强、应用广泛的技术手段，被广泛采用。它通过对话形式为用户提供辅助能力，支持用户发起任务并逐步推进至下一阶段。大模型 Agent 的自动化规划能力将成为运维领域的重要发展方向，需要在理解用户意图、通过任务分解和流程化管理、高效处理复杂的运维任务等方面不断探索。

目前，Agent 技术的发展仍以执行特定任务为主，更多地聚焦于传统模型中的特定方法。这种模式能够高效地完成既定任务，同时为未来更高级的自动化规划奠定基础，逐步推动运维工作的智能化和自动化发展。

3、大模型Agent是什么

首先，Agent需要具备意图理解能力，能够精准把握用户的需求和目标。在此基础上，对任务进行规划，明确任务的整体流程，并将其拆解为多个子任务，逐一确定每一步所需的工具和知识支持。通过一系列工具链实现任务的高效执行，借助大模型的强大理解能力，不仅能够处理简单任务，还能应对复杂任务，并将其进一步拆解为多个子任务逐一执行，实现高效、精准的任务完成。

4、AI Agent成为学术研究创新热点

从技术发展的趋势来看，Agent框架一经推出，短时间内催生了数十万款应用。这一现象表明，Agent技术的易用性和灵活性极高，每个人都能基于该框架开发出自己的应用，具有强大的能力与潜力。

5、AI Agent使能大模型完成复杂任务

大模型Agent的主要使用场景是强调大模型Agent在协同模式下的应用，将用户的任务分解为特定的工作步骤并提供指导，向Agents模式演进。

6、Agent智能体场景模式

场景模式一：较为简单。类似于边缘计算中的数据预处理，提取关键信息后将其传输至大模型，让其进行任务理解和执行，并最终生成报告。侧重于数据的初步筛选和核心信息的提炼。

场景模式二：以任务识别为核心。类似于会议助手，将语音输入转化为文本，对文本进行语义理解，并将其分解为多个子任务。这种模式强调对输入信息的快速识别与任务的细化分解。

场景模式三：大模型与小模型的组合协作。用户输入后，系统首先进行意图理解，这是大多数项目所依赖的关键环节。实践表明，模型的参数量对意图理解的准确性有一定影响，但并非参数量越大效果就。越好随着参数量的增加，模型的性能和输出可能会受到一定影响。意图理解完成后，任务会被分解为多个子任务，既可以由大模型进一步处理，也可以调用专业化的场景化模型或通过API查询数据。

场景模式四：大模型与小模型的混合多智能体（Multi-Agent）协作。在这种模式下，系统不仅需要理解任务，还需要进行进一步的规划。实践过程中，我们发现任务执行后的结果可能与预期存在一定差距，因此需要进行多轮反思与调整，直至达到预设的准确度，才输出最终结果。

这些场景在智能运维体系中具有重要的参考价值，可根据具体的业务场景进行灵活结合与应用。

三、Agent智能运维体应用

1、背景思考

目前我们在该领域仍处于起步阶段。我们注意到，专门针对运维领域的大模型相对较少。从专业评测机构的现状来看，运维领域的评测集数量有限，而运维知识的数据集大多需要结合自身业务场景进行构建。若要开发专门的运维大模型，仍需依托自身的私域知识，开展针对性的监督微调（SFT）训练。

在运维领域，对错误的容错率较低，对准确度的要求较高。一旦出现问题，需要迅速进行排障，而不能仅提供多个可能的解决方案，因此对精确度的要求极高。此外，现有的运维支持覆盖范围广泛，涉及多个领域，具有较大的广度。

同时，运维工具种类繁多，包括用于执行自动化任务和运行脚本的各类工具。因此，大模型在应用时需要明确用户所要解决的问题，以及下一步需要调用的工具，从而提供更为精确的下一步操作指引。

目前，检索增强（Retrieval-Augmented Generation，RAG）技术的需求日益增长，无论是在业务场景还是运维场景中，其重要性都愈发凸显。我们的运维知识库内容丰富多样，涵盖工单、事件单、变更方案、各厂商产品文档，以及互联网论坛中的错误解决方案等。这些资源均可作为支持材料纳入RAG框架中，结合工程化能力后，能够实现更为精准的知识问答。

因此，在后续的运维场景中，RAG技术将发挥关键作用。在构建相关能力时，需重点关注私有数据支持、多领域支持以及厂商产品文档手册的整合。这些文档中不仅包含文本信息，还包含流程图等图形内容。对于这类图形信息的理解，传统的文本处理方式，如简单的字段分割或分片处理，难以有效解决。因此，将其转化为向量化的知识表示是更为理想的选择。在后续的RAG实施过程中，如何将图形知识转化为文本知识，并进行有效的向量化处理，是我们需要特别关注的问题。

Agent技术在任务分解方面具有重要作用，即将复杂任务拆解为多个子任务以逐一执行。这一过程中涉及多种类型的Agent，例如信息采集Agent，其任务是收集各类数据。此类数据的采集可能由大模型直接完成，也可能由大模型汇总后输出结果，或者通过边端采集后经小模型汇总再传递给Agent。此外，还包括诊断Agent、决策Agent和咨询Agent等。这些Agent在整个系统中极为关键，尤其是在诊断环节，需要依赖场景化的L2级模型。

然而，针对私域数据，尤其是在运维意图理解与诊断方面，目前仍存在不足。个人认为，通过SFT（监督微调）训练是提升效果的重要途径。在决策环节，同样需要对运维知识进行深入理解，以便在出现问题时迅速判断问题性质。

目前，在通用的TOC（面向客户）模型中，虽然已集成部分运维知识，但可能仍不够全面。许多经验丰富的运维人员发现，许多故障是重复发生的，而这些故障的相关文档在私域数据中具有较高的参考价值。如果模型能够学习这些私域数据，将能够快速判断问题，并结合知识库的能力，为快速解决问题提供决策指导。

2、执行规划

再跟大家聊聊Agent规划的几个重要过程。

首先，在理解阶段，需明确问题的核心，即准确把握问题的实质。其次，在规划阶段，需根据理解结果判断用户意图，例如是查询数据、处理故障还是提供建议。这一阶段需要借助场景化模型及相关应用技术来实现。

在工具选择方面，目前仍面临较高难度。例如，在构建模型技术中台时，虽然具备外挂知识库和外接API的能力，但大模型如何精准判断并调用所需工具来执行下一步任务仍是一大挑战。以BI查询为例，面对众多数据表，如何通过指令快速生成SQL语句以查询所需数据，目前有多种解决方案，包括宽表方案、基于原数据学习的方案，以及穷举方案等。

执行引擎相对较为简单，只要明确任务目标，即可执行。而反思能力在业务场景和运维场景中都极为关键。目前，主要依赖人工反馈来评估指令或结果的准确性。此外，模型的自反思能力也在实践中被广泛应用，例如对结论重新排序等，但最终仍需借助人工反馈来优化模型输出。

在Agent的工程化能力方面，RAG（Retrieval-Augmented Generation）能力的建设尤为关键。这包括向量化模型的构建以及向量技术库的开发，即向量化数据的存储和管理。此外，还需将数据库能力内置于系统中，以提升工具化能力。

3、应用场景

以下是我们在运维领域思考的几个简单场景，供大家分享和参考。

未来，基于知识库的RAG（Retrieval-Augmented Generation）技术将被广泛应用于知识问答场景，因为运维工作本身涉及大量知识需求，需要通过高效的方式获取相关信息。预计这一场景的应用将较为频繁，并且可能会更多地以Chatbot的形式为用户提供辅助支持。

代码自动生成技术将在智能应用领域得到更广泛的应用，尤其是在研发阶段。然而，在运维过程中，尤其是在脚本编写方面，该技术同样具有较高的适用性和价值。

在信息查询场景中，第三类信息查询与知识问答在本质上是相似的，均基于相同的能力实现。

在故障诊断与运维报告生成场景中，仅依赖知识库和RAG（Retrieval-Augmented Generation）能力可能不足以实现理想效果。针对此类场景，需对模型进行专门的场景化训练，以确保其能够达到较好的应用效果。这或许将是我们在下一阶段的工作重点。而当前阶段，首要任务仍是充分运用知识问答能力，有效利用现有知识资源。

流程自动化与前一场景在需求上较为相似，同样需要借助专业化的模型来实现。这些模型需具备精准的意图理解能力，并结合Multi-Agent能力以实现全流程的自动化处理。在此过程中，仍需基于私有域数据进行模型训练，以确保最终效果的优化与提升。

总结而言，刚才讨论的诸多场景中，频繁提及的关键点在于需要结合私域知识与公域知识构建知识库，这是实现目标的基础。

另一方面，模型本身的训练也是至关重要的。在获得开源模型后，如何选择适合自身需求的模型以提供支持，尤其是针对运维领域，需要进行针对性的微调训练。目前，我们自身的发展阶段仍处于前期，主要工作集中在准备知识以及开展基础训练。然而，在选择何种模型作为基模并进行训练方面，尚未积累丰富的经验，仍在探索之中。同时，对于什么样的模型更适合运维领域的知识处理，也缺乏有效的评测集来进行评估。因此，这可能仍需要一段时间的观察与研究。

4、思考与总结