从上下文构建、意图识别，到工具链调用与反馈机制，如何让智能体真正“有效”，是每一个AI产品人必须面对的挑战。本文从产品视角出发，系统拆解智能体构建的关键要素与设计逻辑，帮助你在AI落地的复杂语境中，找到可控、可用、可演进的路径。

athroupic公司发布了自己的建造Agent的经验分享，下面是翻译。

在过去的一年里，我们与数十个跨行业构建大语言模型（LLM）智能体的团队展开了合作。一贯的情况是，最成功的实现并非使用复杂的框架或专门的库。相反，他们采用的是简单、可组合的模式进行构建。

在这篇文章中，我们分享了与客户合作以及自行构建智能体的经验，并为开发者提供了构建有效智能体的实用建议。

什么是代理？

“智能体”可以通过多种方式来定义。一些客户将智能体定义为能够在较长时间内独立运行的完全自主系统，它们使用各种工具来完成复杂任务。另一些客户则用这个术语来描述遵循预定义工作流程的更具规范性的实现方式。在Anthropic，我们将所有这些变体归类为**智能体系统**，但在工作流程和**智能体**之间做出了重要的架构区分：

工作流是通过预定义代码路径编排大语言模型（LLM）和工具的系统。
另一方面，智能体是指大语言模型（LLM）动态地指导自身流程和工具使用，对如何完成任务保持控制的系统。

下面，我们将详细探讨这两种类型的能动系统。在附录1（“实践中的能动者”）中，我们描述了两个领域，客户在这些领域中发现使用此类系统具有特殊价值。

何时（以及何时不）使用代理

在使用大语言模型（LLMs）构建应用程序时，我们建议尽可能找到最简单的解决方案，仅在必要时增加复杂性。这可能意味着根本不构建智能体系统。智能体系统通常会用延迟和成本来换取更好的任务性能，你应该考虑这种权衡在何时是合理的。

当需要处理更多复杂情况时，工作流能为定义明确的任务提供可预测性和一致性，而当需要大规模的灵活性和基于模型的决策时，智能体则是更好的选择。然而，对于许多应用来说，通过检索和上下文示例优化单个大语言模型调用通常就足够了。

何时以及如何使用框架

有许多框架可以使智能体系统更易于实现，其中包括：

LangGraph来自LangChain；
亚马逊bedrock的AI代理框架；
Rivet，一款拖放式GUILLM工作流构建器；以及
Vellum，另一个用于构建和测试复杂工作流的GUI工具。

这些框架通过简化标准的底层任务（如调用大语言模型、定义和解析工具以及将调用链接在一起），使入门变得容易。然而，它们往往会创建额外的抽象层，这可能会掩盖底层的提示和响应，使其更难调试。当简单的设置就足够时，它们也可能会让人忍不住增加复杂性。

我们建议开发者先直接使用大语言模型（LLM）API：许多模式只需几行代码就能实现。如果确实使用了框架，请确保你理解其底层代码。对底层代码的错误假设是客户出错的常见原因。

查看我们的操作指南，了解一些示例实现。

构建模块、工作流和代理

在本节中，我们将探讨在生产环境中所见到的代理系统的常见模式。我们将从基础构建模块——增强型大语言模型（LLM）开始，逐步增加复杂性，从简单的组合式工作流到自主代理。

构建模块：增强型大语言模型

能动系统的基本构建模块是通过检索、工具和记忆等增强功能得到强化的大语言模型（LLM）。我们目前的模型可以积极利用这些能力——生成自己的搜索查询、选择合适的工具，并确定要保留哪些信息。

增强型大语言模型

我们建议重点关注实施的两个关键方面：根据您的特定用例定制这些功能，并确保它们为您的大语言模型（LLM）提供一个易于使用且文档完善的接口。虽然有许多方法可以实现这些增强功能，但一种方法是通过我们最近发布的模型上下文协议，它允许开发人员通过简单的客户端实现与不断发展的第三方工具生态系统集成。

在本文的其余部分，我们将假设每个大语言模型调用都可以使用这些增强功能。

工作流：提示链

提示链将任务分解为一系列步骤，其中每个大语言模型（LLM）调用都会处理前一个调用的输出。你可以在任何中间步骤添加编程检查（见下图中的“门”），以确保流程仍在正轨上。

提示链工作流

何时使用此工作流程：此工作流程非常适合任务可以轻松、清晰地分解为固定子任务的情况。主要目标是通过使每个大语言模型调用成为更简单的任务，以牺牲延迟为代价来换取更高的准确性。

提示链有用的示例：

生成营销文案，然后将其翻译成另一种语言。
撰写文档大纲，检查大纲是否符合特定标准，然后根据大纲撰写文档。

工作流：路由

路由对输入进行分类，并将其导向专门的后续任务。这种工作流程有助于分离关注点，并构建更专业的提示。如果没有这种工作流程，针对某一种输入进行优化可能会影响对其他输入的性能。

路由工作流程

何时使用此工作流程：路由适用于复杂任务，这些任务存在不同的类别，分开处理效果更佳，并且分类可以由大语言模型（LLM）或更传统的分类模型/算法准确处理。

路由有用的示例：

将不同类型的客户服务咨询（一般问题、退款请求、技术支持）引导至不同的下游流程、提示和工具。
将简单/常见的问题路由到Claude3.5Haiku等较小的模型，将困难/不常见的问题路由到Claude3.5Sonnet等更强大的模型，以优化成本和速度。

工作流：并行化

大语言模型（LLMs）有时可以同时处理一项任务，并通过编程方式聚合其输出。这种工作流程，即并行化，主要有两种变体：

分段：将任务分解为并行运行的独立子任务。
投票：多次运行同一任务以获得不同的输出。

并行化工作流

何时使用此工作流程：当划分的子任务可以并行化以提高速度时，或者当需要多个视角或尝试以获得更可靠的结果时，并行化是有效的。对于需要多方面考虑的复杂任务，当每个方面都通过单独的大语言模型（LLM）调用处理时，大语言模型通常表现更好，这样可以专注于每个特定方面。

并行化有用的示例：1）分段：

实施护栏机制，即一个模型实例处理用户查询，而另一个模型实例对查询进行筛查，以识别不适当的内容或请求。这种方式往往比让同一个大语言模型（LLM）调用同时处理护栏和核心响应的效果更好。
自动执行评估以评估大语言模型（LLM）的性能，其中每次大语言模型调用都会评估模型在给定提示下性能的不同方面。

2）投票：

审查一段代码是否存在漏洞，其中几个不同的提示会对代码进行审查，如果发现问题就会标记出来。
评估给定内容是否不当，通过多个提示评估不同方面或要求不同的投票阈值，以平衡误报和漏报。

工作流：编排器-工作器

在编排器-工作器工作流中，中央大语言模型（LLM）动态地分解任务，将其委派给工作器大语言模型（LLM），并综合它们的结果。

编排器-工作器工作流

何时使用此工作流：此工作流非常适合那些无法预测所需子任务的复杂任务（例如，在编码中，需要更改的文件数量以及每个文件中更改的性质可能取决于任务）。虽然在拓扑结构上相似，但与并行化的关键区别在于其灵活性——子任务不是预先定义的，而是由编排器根据特定输入来确定。

编排器-工作器有用的示例：

每次对多个文件进行复杂更改的编码产品。
搜索涉及从多个来源收集和分析信息以查找可能相关信息的任务。

工作流程：评估器 – 优化器

在评估器-优化器工作流程中，一个大语言模型调用生成响应，而另一个则在循环中提供评估和反馈。

评估器-优化器工作流程

何时使用此工作流程：当我们有明确的评估标准，且迭代优化能带来可衡量的价值时，此工作流程尤为有效。两个适配的标志是，首先，当人类明确表达反馈时，大语言模型（LLM）的响应能得到明显改善；其次，大语言模型（LLM）能够提供此类反馈。这类似于人类作者在撰写润色文档时可能经历的迭代写作过程。

评估器优化器有用的示例：

文学翻译中存在一些细微差别，翻译大语言模型（LLM）可能一开始无法捕捉到，但评估大语言模型（LLM）可以提供有用的批评意见。
复杂的搜索任务，需要多轮搜索和分析才能收集全面的信息，由评估者决定是否有必要进行进一步的搜索。

代理

随着大语言模型（LLMs）在关键能力——理解复杂输入、进行推理和规划、可靠地使用工具以及从错误中恢复——方面的成熟，智能体正在生产环境中崭露头角。智能体的工作要么始于人类用户的指令，要么始于与人类用户的交互式讨论。一旦任务明确，智能体就会独立进行规划和操作，可能会向人类寻求更多信息或判断。在执行过程中，智能体在每一步都从环境中获取“地面实况”（如工具调用结果或代码执行情况）以评估其进展，这一点至关重要。智能体随后可以在检查点或遇到阻碍时暂停，以获取人类反馈。任务通常在完成时终止，但为了保持控制，也常设置停止条件（如最大迭代次数）。

智能体可以处理复杂的任务，但其实现方式往往很直接。它们通常只是基于环境反馈在循环中使用工具的大语言模型（LLM）。因此，清晰且周全地设计工具集及其文档至关重要。我们在附录2（“工具的提示工程”）中详细阐述了工具开发的最佳实践。

自主代理

何时使用智能体：智能体可用于开放式问题，在这些问题中，很难或不可能预测所需的步骤数量，并且无法硬编码固定路径。大语言模型可能会进行多作，并且你必须在一定程度上信任其决策能力。智能体的自主性使其非常适合在可信环境中扩展任务。

智能体的自主性意味着更高的成本，以及错误叠加的可能性。我们建议在沙盒环境中进行广泛测试，并设置适当的防护措施。

代理有用的示例：

以下示例来自我们自己的实现：

用于解决SWE-bench任务的编码代理，这些任务涉及根据任务描述对多个文件进行编辑；
我们的“计算机使用”参考实现，其中Claude使用计算机来完成任务。

编码代理的高级流程

组合并定制这些模式

这些构建模块并非规定性的。它们是开发者可以塑造和组合以适应不同用例的常见模式。与任何大语言模型（LLM）功能一样，成功的关键在于衡量性能并对实现进行迭代。重申一下：只有在复杂性明显改善结果时，才应考虑增加复杂性。

摘要

在大语言模型（LLM）领域取得成功，并非在于构建最复杂的系统，而是在于构建适合你需求的系统。从简单的提示开始，通过全面评估对其进行优化，仅在简单解决方案无法满足需求时才添加多步骤智能体系统。

在实施代理时，我们努力遵循三项核心原则：

保持简单性在你的代理设计中。
通过明确展示智能体的规划步骤来优先考虑透明度。
通过全面的工具**留档和测试**，精心打造您的代理计算机接口（ACI）。

框架可以帮助您快速上手，但在进入生产阶段时，不要犹豫减少抽象层，使用基本组件进行构建。遵循这些原则，您可以创建不仅强大，而且可靠、可维护，并受用户信任的代理。

致谢

作者：Erik Schluntz和Barry Zhang。本作品借鉴了我们在Anthropic构建智能体的经验，以及客户分享的宝贵见解，对此我们深表感激。

附录1：实践中的代理

我们与客户的合作揭示了AI智能体的两个特别有前景的应用，它们展示了上述模式的实际价值。这两个应用都说明了智能体如何为那些既需要对话又需要行动、有明确成功标准、能够实现反馈循环并融入有意义的人工监督的任务增加最大价值。

A. 客户支持

客户支持通过工具集成将熟悉的聊天机器人界面与增强功能相结合。这对于更开放式的智能体来说是自然的适配，原因如下：

支持交互自然地遵循对话流程，同时需要访问外部信息和操作；
可以集成工具来提取客户数据、订单历史记录和知识库文章；
诸如退款或更新票务等操作可以通过编程方式处理；以及
成功可以通过用户定义的分辨率清晰地衡量。

多家公司已通过基于使用量的定价模式证明了这种方法的可行性，该模式仅对成功解决的问题收费，显示出对其代理有效性的信心。

B. 编码代理

软件开发领域已展现出大语言模型（LLM）功能的巨大潜力，其能力已从代码补全发展到自主解决问题。智能体尤其有效，原因如下：

代码解决方案可通过自动化测试进行验证；
智能体可以利用测试结果作为反馈来迭代解决方案；
问题空间定义明确且结构清晰；并且
输出质量可以客观衡量。

在我们自己的实现中，智能体现在仅根据拉取请求描述就能解决SWE-bench Verified基准测试中的真实GitHub问题。然而，虽然自动化测试有助于验证功能，但人工审查对于确保解决方案符合更广泛的系统要求仍然至关重要。

无论你正在构建哪种智能体系统，工具都可能是你的智能体的重要组成部分。工具通过在我们的 API 中指定其确切结构和定义，使 Claude 能够与外部服务和 API 进行交互。当 Claude 做出响应时，如果它计划调用工具，将在 API 响应中包含一个工具使用块。工具定义和规范应与你的整体提示一样受到提示工程的重视。在这个简短的附录中，我们将介绍如何对工具进行提示工程。

通常有多种方式来指定同一操作。例如，你可以通过编写差异（diff）或重写整个文件来指定文件编辑。对于结构化输出，你可以在 Markdown 或 JSON 中返回代码。在软件工程中，诸如此类的差异只是表面上的，可以无损地从一种形式转换为另一种形式。然而，某些格式对大语言模型（LLM）来说比其他格式更难编写。编写差异（diff）需要在编写新代码之前知道块头中有多少行正在更改。在 JSON 中（与 Markdown 相比）编写代码需要对换行符和引号进行额外的转义。

我们关于确定工具格式的建议如下：

在模型陷入困境之前，给它足够的标记来“思考”。
保持格式与模型在互联网文本中自然看到的格式相近。
确保没有格式化“开销”，比如不必精确统计数千行代码，也不必对其写入的任何代码进行字符串转义。

一条经验法则是，思考在人机交互（HCI）上投入了多少精力，然后计划在创建良好的代理-计算机交互（ACI）上投入同样多的精力。以下是关于如何做到这一点的一些想法：

设身处地站在模型的角度思考。根据描述和参数，是否能一目了然地知道如何使用这个工具，还是需要仔细思考？如果是后者，那么对于模型来说可能也是如此。一个好的工具定义通常会包含示例用法、边界情况、输入格式要求，以及与其他工具的明确界限。
如何更改参数名称或描述，使事情更加清晰明了？不妨将其视为为团队中的初级开发人员编写出色的文档字符串。在使用许多相似工具时，这一点尤为重要。
测试模型如何使用您的工具：在我们的工作台中运行许多示例输入，查看模型会犯哪些错误，然后进行迭代。
防错你的工具。更改参数，使错误更难发生。

在为SWE-bench构建我们的智能体时，实际上我们花在优化工具上的时间比优化整体提示的时间更多。例如，我们发现，在智能体移出根目录后，模型在使用相对文件路径的工具时会出错。为了解决这个问题，我们将工具改为始终要求使用绝对文件路径，并且发现模型使用这种方法时毫无瑕疵。

原文链接：
https://www.anthropic.com/engineering/desktop-extensions

本文由 @yan 原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Unsplash，基于CC0协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务

登录账号

构建有效的智能体

什么是代理？

何时（以及何时不）使用代理

何时以及如何使用框架

构建模块、工作流和代理

构建模块：增强型大语言模型

工作流：提示链

工作流：路由

工作流：并行化

工作流：编排器-工作器

工作流程：评估器 – 优化器

代理

组合并定制这些模式

摘要

致谢

附录1：实践中的代理

A. 客户支持

B. 编码代理

人人都是产品经理

评论 (0)

文章章节

推荐文章

速抢（2核2G）77元/年香港免备案服务器

用户破8亿！GPT-5.1来了，表情包含量可自定义

发布即开放：百度猎户座葫芦里卖的什么药？

李飞飞的世界模型来了！一句话生成3D世界，AI 真的开始理解现实了

科技巨头「偷偷借钱」搞AI，次贷危机魅影重现？

腾讯总裁剧透微信搭载智能体！阿里和谷歌也都开始互相伤害了

AIGC大模型能力提升10倍！安谋科技Arm China掏出最强NPU IP大招

小鹏物理AI的尽头，是马斯克的现金流

热门标签

热门作者

AI中国

钛媒体APP

IT之家

人人都是产品经理

AIbase基地

登录账号

构建有效的智能体

什么是代理？

何时（以及何时不）使用代理

何时以及如何使用框架

构建模块、工作流和代理

构建模块：增强型大语言模型

工作流：提示链

工作流：路由

工作流：并行化

工作流：编排器-工作器

工作流程：评估器 – 优化器

代理

组合并定制这些模式

摘要

致谢

附录1：实践中的代理

A. 客户支持

B. 编码代理

人人都是产品经理

评论 (0)

文章章节

推荐文章

速抢（2核2G）77元/年香港免备案服务器

用户破8亿！GPT-5.1来了，表情包含量可自定义

发布即开放：百度猎户座葫芦里卖的什么药？

李飞飞的世界模型来了！一句话生成3D世界，AI 真的开始理解现实了

科技巨头「偷偷借钱」搞AI，次贷危机魅影重现？

腾讯总裁剧透微信搭载智能体！阿里和谷歌也都开始互相伤害了

AIGC大模型能力提升10倍！安谋科技Arm China掏出最强NPU IP大招

小鹏物理AI的尽头，是马斯克的现金流

热门标签

热门作者

AI中国

钛媒体APP

IT之家

人人都是产品经理

AIbase基地

为您推荐