第 5 章:工具使用(函数调用)
工具使用模式概述
到目前为止,我们讨论的 Agent 模式主要涉及编排语言模型之间的交互和管理 Agent 内部工作流中的信息流(链式、路由、并行化、反思)。然而,要使 Agent 真正有用并与现实世界或外部系统交互,它们需要使用工具的能力。
工具使用模式通常通过一种称为函数调用的机制实现,使 Agent 能够与外部 API、数据库、服务交互,甚至执行代码。它允许位于 Agent 核心的大型语言模型(LLM)根据用户请求或任务当前状态,决定何时以及如何使用特定的外部函数。
该过程通常包括:
- 工具定义: 外部函数或能力被定义并描述给 LLM。此描述包括函数的目的、名称以及它接受的参数及其类型和描述。
- LLM 决策: LLM 接收用户的请求和可用的工具定义。基于其对请求和工具的理解,LLM 决定是否需要调用一个或多个工具来满足请求。
- 函数调用生成: 如果 LLM 决定使用工具,它会生成一个结构化输出(通常是 JSON 对象),指定要调用的工具名称和要传递给它的参数(参数),这些参数从用户的请求中提取。
- 工具执行: Agent 框架或编排层拦截此结构化输出。它识别请求的工具并使用提供的参数执行实际的外部函数。
- 观察/结果: 工具执行的输出或结果返回给 Agent。
- LLM 处理(可选但常见): LLM 接收工具的输出作为上下文,并使用它向用户制定最终响应或决定工作流中的下一步(可能涉及调用另一个工具、反思或提供最终答案)。
此模式是基础性的,因为它打破了 LLM 训练数据的限制,允许它访问最新信息、执行它内部无法完成的计算、与用户特定数据交互或触发现实世界的行动。函数调用是连接 LLM 推理能力与可用的大量外部功能之间差距的技术机制。
虽然”函数调用”准确描述了调用特定预定义代码函数的过程,但考虑更广泛的”工具调用”概念会更有益。这个更广泛的术语承认 Agent 的能力可以远远超出简单的函数执行。”工具”可以是传统函数,也可以是复杂的 API 端点、数据库查询请求,甚至是针对其他专门 Agent 的指令。这种视角使我们能够设想更复杂的系统,例如,主 Agent 可能将复杂的数据分析任务委托给专用的”分析师 Agent”,或通过 API 查询外部知识库。以”工具调用”的思维方式,能更好地捕捉 Agent 作为跨数字资源和其他智能实体生态系统的编排者的全部潜力。
像 LangChain、LangGraph 和 Google Agent Developer Kit (ADK) 这样的框架为定义工具并将它们集成到 Agent 工作流中提供了强大的支持,通常利用现代 LLM(如 Gemini 或 OpenAI 系列中的那些)的原生函数调用能力。在这些框架的”画布”上,您定义工具,然后配置 Agent(通常是 LLM Agent)以意识到并能够使用这些工具。
工具使用是构建强大、交互式和外部感知 Agent 的基石模式。
实际应用与用例
工具使用模式几乎适用于 Agent 需要超越生成文本来执行操作或检索特定动态信息的任何场景:
- 从外部源检索信息:
访问 LLM 训练数据中不存在的实时数据或信息。
- 用例: 天气 Agent。
- 工具: 接受位置并返回当前天气状况的天气 API。
- Agent 流程: 用户问”伦敦的天气如何?”,LLM 识别需要天气工具,用”伦敦”调用工具,工具返回数据,LLM 将数据格式化为用户友好的响应。
- 与数据库和 API 交互:
对结构化数据执行查询、更新或其他操作。
- 用例: 电子商务 Agent。
- 工具: API 调用以检查产品库存、获取订单状态或处理付款。
- Agent 流程: 用户问”产品 X 有库存吗?”,LLM 调用库存 API,工具返回库存数量,LLM 告诉用户库存状态。
- 执行计算和数据分析:
使用外部计算器、数据分析库或统计工具。
- 用例: 金融 Agent。
- 工具: 计算器函数、股票市场数据 API、电子表格工具。
- Agent 流程: 用户问”AAPL 的当前价格是多少,如果我以 150 美元购买 100 股,计算潜在利润?”,LLM 调用股票 API,获取当前价格,然后调用计算器工具,获取结果,格式化响应。
- 发送通信:
发送电子邮件、消息或对外部通信服务进行 API 调用。
- 用例: 个人助理 Agent。
- 工具: 电子邮件发送 API。
- Agent 流程: 用户说”给 John 发一封关于明天会议的电子邮件。”,LLM 使用从请求中提取的收件人、主题和正文调用电子邮件工具。
- 执行代码:
在安全环境中运行代码片段以执行特定任务。
- 用例: 编码助手 Agent。
- 工具: 代码解释器。
- Agent 流程: 用户提供 Python 代码片段并问”这段代码做什么?”,LLM 使用解释器工具运行代码并分析其输出。
- 控制其他系统或设备:
与智能家居设备、物联网平台或其他连接系统交互。
- 用例: 智能家居 Agent。
- 工具: 控制智能灯的 API。
- Agent 流程: 用户说”关闭客厅的灯。”LLM 使用命令和目标设备调用智能家居工具。
工具使用将语言模型从文本生成器转变为能够在数字或物理世界中感知、推理和行动的 Agent(见图 1)

图 1:Agent 使用工具的一些示例
实操代码示例(LangChain)
在 LangChain 框架中实现工具使用是一个两阶段过程。首先,定义一个或多个工具,通常通过封装现有的 Python 函数或其他可运行组件。随后,将这些工具绑定到语言模型,从而赋予模型在确定需要外部函数调用以满足用户查询时生成结构化工具使用请求的能力。
以下实现将通过定义一个简单的函数来模拟信息检索工具,以此演示此原理。随后,将构建并配置一个 Agent 以利用此工具响应用户输入。执行此示例需要安装核心 LangChain 库和特定于模型的提供程序包。此外,使用所选语言模型服务的适当身份验证(通常通过在本地环境中配置的 API 密钥)是必要的先决条件。
1 | import os, getpass |
代码使用 LangChain 库和 Google Gemini 模型设置了一个工具调用 Agent。它定义了一个 search_information 工具,模拟为特定查询提供事实答案。该工具对”weather in london”、”capital of france”和”population of earth”有预定义的响应,以及其他查询的默认响应。初始化了一个 ChatGoogleGenerativeAI 模型,确保其具有工具调用能力。创建了一个 ChatPromptTemplate 来指导 Agent 的交互。使用 create_tool_calling_agent 函数将语言模型、工具和提示词组合成一个 Agent。然后设置一个 AgentExecutor 来管理 Agent 的执行和工具调用。定义了 run_agent_with_tool 异步函数以使用给定查询调用 Agent 并打印结果。main 异步函数准备多个要并发运行的查询。这些查询旨在测试 search_information 工具的特定和默认响应。最后,asyncio.run(main()) 调用执行所有 Agent 任务。代码包括在继续 Agent 设置和执行之前成功 LLM 初始化的检查。
实操代码示例(CrewAI)
此代码提供了如何在 CrewAI 框架中实现函数调用(工具)的实际示例。它设置了一个简单的场景,其中 Agent 配备了查找信息的工具。该示例专门演示了使用此 Agent 和工具获取模拟股票价格。
1 | ## pip install crewai langchain-openai |
此代码演示了使用 CrewAI 库模拟财务分析任务的简单应用程序。它定义了一个自定义工具 get_stock_price,模拟查找预定义股票代码的价格。该工具设计为对有效代码返回浮点数,或对无效代码引发 ValueError。创建了一个名为 financial_analyst_agent 的 CrewAI Agent,角色为高级财务分析师。该 Agent 被赋予 get_stock_price 工具进行交互。定义了一个任务 analyze_aapl_task,专门指示 Agent 使用工具查找 AAPL 的模拟股票价格。任务描述包括关于使用工具时如何处理成功和失败情况的明确说明。组建了一个团队,包含 financial_analyst_agent 和 analyze_aapl_task。为 Agent 和团队启用了详细设置,以在执行期间提供详细日志。脚本的主要部分在标准 if name == “main“: 块中使用 kickoff() 方法运行团队的任务。在启动团队之前,它会检查是否设置了 OPENAI_API_KEY 环境变量,这是 Agent 运行所必需的。然后将团队执行的结果(即任务的输出)打印到控制台。代码还包括基本日志配置,以更好地跟踪团队的行动和工具调用。它使用环境变量进行 API 密钥管理,尽管它指出对于生产环境建议使用更安全的方法。简而言之,核心逻辑展示了如何定义工具、Agent 和任务,以在 CrewAI 中创建协作工作流。
实操代码(Google ADK)
Google Agent Developer Kit (ADK) 包括一个原生集成工具库,可以直接集成到 Agent 的能力中。
Google 搜索: 此类组件的主要示例是 Google 搜索工具。此工具作为 Google 搜索引擎的直接接口,为 Agent 提供执行网络搜索和检索外部信息的功能。
1 | from google.adk.agents import Agent |
此代码演示了如何使用 Python 的 Google ADK 创建和使用由 Google ADK 驱动的基本 Agent。该 Agent 设计为通过利用 Google 搜索作为工具来回答问题。首先,从 IPython、google.adk 和 google.genai 导入必要的库。定义了应用程序名称、用户 ID 和会话 ID 的常量。创建了一个名为”basic_search_agent”的 Agent 实例,带有描述和说明指示其目的。它被配置为使用 Google 搜索工具,这是 ADK 提供的预构建工具。初始化 InMemorySessionService(见第 8 章)以管理 Agent 的会话。为指定的应用程序、用户和会话 ID 创建新会话。实例化 Runner,将创建的 Agent 与会话服务链接。此运行器负责在会话中执行 Agent 的交互。定义了辅助函数 call_agent 以简化向 Agent 发送查询和处理响应的过程。在 call_agent 内部,用户的查询被格式化为具有角色”user”的 types.Content 对象。使用用户 ID、会话 ID 和新消息内容调用 runner.run 方法。runner.run 方法返回表示 Agent 操作和响应的事件列表。代码遍历这些事件以查找最终响应。如果事件被识别为最终响应,则提取该响应的文本内容。提取的 Agent 响应然后打印到控制台。最后,使用查询”最新的 AI 新闻是什么?”调用 call_agent 函数以演示 Agent 的运行情况。
代码执行: Google ADK 具有用于专门任务的集成组件,包括用于动态代码执行的环境。built_in_code_execution 工具为 Agent 提供沙盒 Python 解释器。这允许模型编写和运行代码以执行计算任务、操作数据结构和执行程序脚本。这种功能对于解决需要确定性逻辑和精确计算的问题至关重要,这超出了概率语言生成本身的范围。
1 | import os, getpass |
此脚本使用 Google 的 Agent Development Kit (ADK) 创建一个通过编写和执行 Python 代码解决数学问题的 Agent。它定义了一个 LlmAgent,专门指示其充当计算器,为其配备 built_in_code_execution 工具。主要逻辑位于 call_agent_async 函数中,该函数向 Agent 的运行器发送用户查询并处理结果事件。在此函数内部,异步循环遍历事件,打印生成的 Python 代码及其执行结果以进行调试。代码仔细区分这些中间步骤和包含数值答案的最终事件。最后,main 函数使用两个不同的数学表达式运行 Agent,以演示其执行计算的能力。
企业搜索: 此代码使用 Python 中的 google.adk 库定义了一个 Google ADK 应用程序。它专门使用 VSearchAgent,该 Agent 旨在通过搜索指定的 Vertex AI 搜索数据存储来回答问题。代码初始化一个名为”q2_strategy_vsearch_agent”的 VSearchAgent,提供描述、要使用的模型(”gemini-2.0-flash-exp”)和 Vertex AI 搜索数据存储的 ID。DATASTORE_ID 预期设置为环境变量。然后为 Agent 设置 Runner,使用 InMemorySessionService 管理对话历史。定义了异步函数 call_vsearch_agent_async 以与 Agent 交互。此函数接受查询,构造消息内容对象,并调用运行器的 run_async 方法将查询发送到 Agent。然后该函数将 Agent 的响应流式传输回控制台。它还打印有关最终响应的信息,包括来自数据存储的任何源归因。包含错误处理以捕获 Agent 执行期间的异常,提供有关潜在问题(如数据存储 ID 不正确或缺少权限)的信息性消息。提供了另一个异步函数 run_vsearch_example 以演示如何使用示例查询调用 Agent。主执行块检查 DATASTORE_ID 是否已设置,然后使用 asyncio.run 运行示例。它包括检查以处理在已有运行事件循环的环境(如 Jupyter 笔记本)中运行代码的情况。
1 | import asyncio |
总的来说,此代码为构建利用 Vertex AI 搜索根据存储在数据存储中的信息回答问题的对话式 AI 应用程序提供了基本框架。它演示了如何定义 Agent、设置运行器以及在流式传输响应的同时异步与 Agent 交互。重点是从特定数据存储检索和综合信息以回答用户查询。
Vertex Extensions: Vertex AI 扩展是一个结构化的 API 包装器,使模型能够连接到外部 API 以进行实时数据处理和操作执行。扩展提供企业级安全性、数据隐私和性能保证。它们可用于生成和运行代码、查询网站以及分析来自私有数据存储的信息等任务。Google 为常见用例提供预构建扩展,如代码解释器和 Vertex AI 搜索,并可选择创建自定义扩展。扩展的主要好处包括强大的企业控制和与其他 Google 产品的无缝集成。扩展和函数调用之间的关键区别在于它们的执行:Vertex AI 自动执行扩展,而函数调用需要用户或客户端手动执行。
概览
是什么: 大型语言模型(LLM)是强大的文本生成器,但它们基本上与外部世界断开连接。它们的知识是静态的,仅限于训练数据,并且缺乏执行操作或检索实时信息的能力。这种固有的限制阻止它们完成需要与外部 API、数据库或服务交互的任务。没有通往这些外部系统的桥梁,它们解决现实世界问题的效用受到严重限制。
为什么: 工具使用模式(通常通过函数调用实现)为此问题提供了标准化解决方案。它的工作原理是以 LLM 可以理解的方式向其描述可用的外部函数或”工具”。基于用户的请求,Agent LLM 可以决定是否需要工具,并生成指定要调用哪个函数以及使用什么参数的结构化数据对象(如 JSON)。编排层执行此函数调用,检索结果,并将其反馈给 LLM。这允许 LLM 将最新的外部信息或操作结果合并到其最终响应中,有效地赋予其行动能力。
经验法则: 当 Agent 需要突破 LLM 的内部知识并与外部世界交互时,使用工具使用模式。这对于需要实时数据(例如,检查天气、股票价格)、访问私有或专有信息(例如,查询公司数据库)、执行精确计算、执行代码或触发其他系统中的操作(例如,发送电子邮件、控制智能设备)的任务至关重要。
视觉摘要:

图 2:工具使用设计模式
关键要点
- 工具使用(函数调用)允许 Agent 与外部系统交互并访问动态信息。
- 它涉及定义具有 LLM 可以理解的清晰描述和参数的工具。
- LLM 决定何时使用工具并生成结构化函数调用。
- Agent 框架执行实际的工具调用并将结果返回给 LLM。
- 工具使用对于构建可以执行现实世界操作并提供最新信息的 Agent 至关重要。
- LangChain 使用 @tool 装饰器简化工具定义,并提供 create_tool_calling_agent 和 AgentExecutor 用于构建工具使用 Agent。
- Google ADK 有许多非常有用的预构建工具,如 Google 搜索、代码执行和 Vertex AI 搜索工具。
结论
工具使用模式是将大型语言模型的功能范围扩展到其固有文本生成能力之外的关键架构原则。通过为模型配备与外部软件和数据源交互的能力,此范式允许 Agent 执行操作、进行计算并从其他系统检索信息。此过程涉及模型在确定满足用户查询需要时生成调用外部工具的结构化请求。LangChain、Google ADK 和 CrewAI 等框架提供结构化抽象和组件,促进这些外部工具的集成。这些框架管理向模型公开工具规范并解析其后续工具使用请求的过程。这简化了可以与外部数字环境交互并在其中采取行动的复杂 Agent 系统的开发。
参考文献
- LangChain Documentation (Tools): https://python.langchain.com/docs/integrations/tools/
- Google Agent Developer Kit (ADK) Documentation (Tools): https://google.github.io/adk-docs/tools/
- OpenAI Function Calling Documentation: https://platform.openai.com/docs/guides/function-calling
- CrewAI Documentation (Tools): https://docs.crewai.com/concepts/tools