注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】

清华《GPT多模态大模型与AI Agent智能体》书籍配套视频课程【陈敬雷】

GPT多模态大模型与AI Agent智能体系列九十二

大模型MCP开发:从ReAct到Manus,大模型工具调用全解析!揭秘AI智能体如何"思考+动手"颠覆未来

在大语言模型(LLMs)飞速发展的今天,单一模型的知识边界和交互能力已难以满足复杂任务需求。AI智能体(AI Agent)通过引入工具调用机制,让大模型既能"思考"又能"动手",彻底突破了静态输出的局限。本文系统梳理了ReAct、Function Call、MCP等核心技术的原理与差异,并结合工程实践详解如何搭建具备工具调用能力的智能体,最终揭秘Manus这类通用智能体的技术本质。

一、智能体:让大模型拥有"大脑+四肢"的AI新形态

传统大模型依赖海量语料训练,虽内化了大量知识,却无法获取实时信息、操作外部环境,容易产生"幻觉"。AI智能体通过"大脑(大模型)+记忆+工具"的架构,实现了从"被动响应"到"主动决策"的跨越。

  • 核心组件
    • 规划(Planning):大模型将复杂任务分解为子任务,通过"分而治之"逐步求解,并通过"自我反思"修正错误;
    • 记忆(Memory):短期记忆依赖上下文窗口存储对话历史,长期记忆通过RAG(检索增强生成)调用外部向量数据库补充知识;
    • 工具(Tool):作为"感官和四肢",工具让智能体既能获取外部信息(如天气、新闻),又能对环境施加影响(如操作浏览器、执行代码)。
二、ReAct:让大模型"边想边做"的推理框架

2023年Google与普林斯顿大学提出的ReAct(Reasoning+Acting),彻底改变了大模型的思考模式。它打破了传统"仅推理"(如CoT思维链)的局限,将"推理"与"行动"结合,让模型在解决问题时"边想边做"。

  • 核心逻辑
    每步思考遵循"Thought(推理过程)→Action(工具调用)→Observation(结果反馈)“的循环。例如,回答"除苹果遥控器外,还有哪些设备能控制Front Row"时,模型会先推理"需要先查Apple Remote对应的程序”,再调用工具检索,最后根据结果继续分析。

  • 实现方式
    通过提示工程引导模型输出固定格式:用自然语言描述思考过程,用结构化指令调用工具(如Search[关键词])。工具执行后,将结果作为"Observation"反馈给模型,形成闭环。

  • 优势与局限
    优势在于可解释性强(暴露思考过程)、能动态获取外部信息;但依赖模型推理能力,需7B参数以上模型才能稳定发挥,且工具调用格式需通过提示严格约束。

三、Function Call:工具调用的标准化协议

OpenAI 2023年推出的Function Call,将工具调用从"提示工程"升级为"标准化协议",让大模型与工具的交互更高效、更可靠。

  • 核心原理
    智能体将工具信息(名称、参数、描述)以JSON格式传入大模型,模型根据任务需求返回结构化的调用指令(含工具名和参数),智能体解析后执行工具,再将结果反馈给模型。

  • 协议细节

    • 输入格式:包含messages(对话历史)和tools(工具列表),工具需明确参数类型(如string)和必填项;
    • 输出格式:模型返回tool_calls字段,指定调用的工具及参数,避免自然语言解析误差;
    • 适配性:主流大模型(如GPT-4、通义千问)均支持该协议,可通过统一SDK调用,降低跨模型开发成本。
  • 与ReAct的差异
    ReAct依赖提示引导模型输出工具调用,而Function Call通过训练让模型原生支持结构化指令,更适合复杂工具链和多步调用场景。

四、MCP:让工具"即插即用"的统一协议

尽管Function Call解决了工具调用的标准化问题,但不同智能体重复开发工具的问题仍未解决。Anthropic 2024年推出的MCP(Model Context Protocol),通过"客户端-服务器"架构,让工具实现"一次开发,多端复用"。

  • 核心架构

    • 宿主(Host):智能体应用,管理多个客户端的生命周期;
    • 客户端(Client):与单个服务器建立连接,负责请求路由和结果反馈;
    • 服务器(Server):提供工具、资源和提示模板,是工具的实际载体;
    • 基础协议:基于JSON-RPC 2.0,支持STDIO(本地进程通信)和HTTP SSE(远程通信)。
  • 工具复用逻辑
    开发者将工具封装为MCP Server(如高德地图的地图服务、支付宝的支付服务),智能体通过MCP Client接入服务器,即可获取工具列表并调用。例如,天气查询工具只需开发一次,所有智能体都能通过MCP复用。

  • 与Function Call的关系
    MCP是工具管理的"上层协议",其工具调用仍依赖Function Call实现。通过MCP,智能体可一键接入海量工具,大幅降低开发成本。

五、工程实践:用Spring AI搭建工具调用智能体

以Java生态的Spring AI和Spring AI Alibaba为例,可快速实现从基础对话到复杂工具调用的智能体。

  • 无工具调用场景
    初始化ChatClient,传入大模型实例(如通义千问),通过prompt().user(问题).call()直接获取回答,适用于简单问答。

  • Function Call实战

    1. 定义工具类(如WeatherTool),用@Tool注解标记方法(如getDailyWeather);
    2. 初始化ChatClient时传入工具实例,模型会自动判断是否调用工具;
    3. 交互流程:用户提问→模型返回工具调用指令→智能体执行工具→模型基于结果生成答案。
  • MCP Server/Client实现

    • Server端:将工具封装为MCP Server,支持STDIO(本地调用)或HTTP SSE(远程调用),通过@mcp.tool()标记工具方法;
    • Client端:智能体通过McpClient连接Server,获取工具列表并调用,实现工具"跨应用复用"。
六、Manus:从ReAct到通用智能体的进化

2025年推出的Manus是通用智能体的代表,其核心是CodeAct(ReAct的升级):每步思考输出包含多个工具调用的代码,减少交互步数。例如,操作浏览器时,模型直接生成"打开网页→点击按钮→提取信息"的代码,而非单步指令。

  • 复刻示例
    基于OpenManus思路,用MCP集成三类工具:
    • 浏览器操作(puppeteer_navigate打开网页);
    • 文件读写(read_file/write_file处理本地数据);
    • 代码执行(python_execute运行脚本)。
      智能体可完成"从百度爬取天气→分析是否适合跑步→写入本地文件"的端到端任务。
结语:工具调用是AI智能体的"进化引擎"

从ReAct的"边想边做",到Function Call的"标准化交互",再到MCP的"工具复用",工具调用技术正在让AI智能体从"能说会道"走向"能做实事"。未来,随着Manus等通用智能体的成熟,AI将在办公自动化、智能家居、工业控制等领域实现深度落地,真正成为人类的"数字助手"。掌握这些技术,将是把握AI时代机遇的关键。

更多技术内容

更多技术内容可参见
清华《GPT多模态大模型与AI Agent智能体》书籍配套视频【陈敬雷】
更多的技术交流和探讨也欢迎加我个人微信chenjinglei66。

总结

此文章有对应的配套新书教材和视频:

【配套新书教材】
《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
新书特色:《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)是一本2025年清华大学出版社出版的图书,作者是陈敬雷,本书深入探讨了GPT多模态大模型与AI Agent智能体的技术原理及其在企业中的应用落地。
全书共8章,从大模型技术原理切入,逐步深入大模型训练及微调,还介绍了众多国内外主流大模型。LangChain技术、RAG检索增强生成、多模态大模型等均有深入讲解。对AI Agent智能体,从定义、原理到主流框架也都进行了深入讲解。在企业应用落地方面,本书提供了丰富的案例分析,如基于大模型的对话式推荐系统、多模态搜索、NL2SQL数据即席查询、智能客服对话机器人、多模态数字人,以及多模态具身智能等。这些案例不仅展示了大模型技术的实际应用,也为读者提供了宝贵的实践经验。
本书适合对大模型、多模态技术及AI Agent感兴趣的读者阅读,也特别适合作为高等院校本科生和研究生的教材或参考书。书中内容丰富、系统,既有理论知识的深入讲解,也有大量的实践案例和代码示例,能够帮助学生在掌握理论知识的同时,培养实际操作能力和解决问题的能力。通过阅读本书,读者将能够更好地理解大模型技术的前沿发展,并将其应用于实际工作中,推动人工智能技术的进步和创新。

【配套视频】

清华《GPT多模态大模型与AI Agent智能体》书籍配套视频【陈敬雷】
视频特色: 前沿技术深度解析,把握行业脉搏

实战驱动,掌握大模型开发全流程

智能涌现与 AGI 前瞻,抢占技术高地

上一篇:《GPT多模态大模型与AI Agent智能体》系列一》大模型技术原理 - 大模型技术的起源、思想
下一篇:DeepSeek大模型技术系列五》DeepSeek大模型基础设施全解析:支撑万亿参数模型的幕后英雄

Logo

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区,共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐