大模型MCP开发：从ReAct到Manus，大模型工具调用全解析！揭秘AI智能体如何“思考+动手“颠覆未来

本文系统解析了AI智能体工具调用技术的发展历程，从ReAct框架的"边想边做"到Function Call的标准化协议，再到MCP的"即插即用"工具复用机制，揭示了智能体从"能说会道"到"能做实事"的进化路径。文章详细阐述了智能体"大脑+四肢"的架构设计，包括规划、记忆和工具三大核心组件，并通过Sp

陈敬雷-充电了么-CEO兼CTO

1282人浏览 · 2025-08-13 18:26:39

陈敬雷-充电了么-CEO兼CTO · 2025-08-13 18:26:39 发布

注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】

清华《GPT多模态大模型与AI Agent智能体》书籍配套视频课程【陈敬雷】

文章目录

GPT多模态大模型与AI Agent智能体系列九十二
- 大模型MCP开发：从ReAct到Manus，大模型工具调用全解析！揭秘AI智能体如何"思考+动手"颠覆未来
- - 更多技术内容
总结

GPT多模态大模型与AI Agent智能体系列九十二

大模型MCP开发：从ReAct到Manus，大模型工具调用全解析！揭秘AI智能体如何"思考+动手"颠覆未来

在大语言模型（LLMs）飞速发展的今天，单一模型的知识边界和交互能力已难以满足复杂任务需求。AI智能体（AI Agent）通过引入工具调用机制，让大模型既能"思考"又能"动手"，彻底突破了静态输出的局限。本文系统梳理了ReAct、Function Call、MCP等核心技术的原理与差异，并结合工程实践详解如何搭建具备工具调用能力的智能体，最终揭秘Manus这类通用智能体的技术本质。

一、智能体：让大模型拥有"大脑+四肢"的AI新形态

传统大模型依赖海量语料训练，虽内化了大量知识，却无法获取实时信息、操作外部环境，容易产生"幻觉"。AI智能体通过"大脑（大模型）+记忆+工具"的架构，实现了从"被动响应"到"主动决策"的跨越。

核心组件：
- 规划（Planning）：大模型将复杂任务分解为子任务，通过"分而治之"逐步求解，并通过"自我反思"修正错误；
- 记忆（Memory）：短期记忆依赖上下文窗口存储对话历史，长期记忆通过RAG（检索增强生成）调用外部向量数据库补充知识；
- 工具（Tool）：作为"感官和四肢"，工具让智能体既能获取外部信息（如天气、新闻），又能对环境施加影响（如操作浏览器、执行代码）。

二、ReAct：让大模型"边想边做"的推理框架

2023年Google与普林斯顿大学提出的ReAct（Reasoning+Acting），彻底改变了大模型的思考模式。它打破了传统"仅推理"（如CoT思维链）的局限，将"推理"与"行动"结合，让模型在解决问题时"边想边做"。

核心逻辑：
每步思考遵循"Thought（推理过程）→Action（工具调用）→Observation（结果反馈）“的循环。例如，回答"除苹果遥控器外，还有哪些设备能控制Front Row"时，模型会先推理"需要先查Apple Remote对应的程序”，再调用工具检索，最后根据结果继续分析。
实现方式：
通过提示工程引导模型输出固定格式：用自然语言描述思考过程，用结构化指令调用工具（如Search[关键词]）。工具执行后，将结果作为"Observation"反馈给模型，形成闭环。
优势与局限：
优势在于可解释性强（暴露思考过程）、能动态获取外部信息；但依赖模型推理能力，需7B参数以上模型才能稳定发挥，且工具调用格式需通过提示严格约束。

三、Function Call：工具调用的标准化协议

OpenAI 2023年推出的Function Call，将工具调用从"提示工程"升级为"标准化协议"，让大模型与工具的交互更高效、更可靠。

核心原理：
智能体将工具信息（名称、参数、描述）以JSON格式传入大模型，模型根据任务需求返回结构化的调用指令（含工具名和参数），智能体解析后执行工具，再将结果反馈给模型。
协议细节：
- 输入格式：包含messages（对话历史）和tools（工具列表），工具需明确参数类型（如string）和必填项；
- 输出格式：模型返回tool_calls字段，指定调用的工具及参数，避免自然语言解析误差；
- 适配性：主流大模型（如GPT-4、通义千问）均支持该协议，可通过统一SDK调用，降低跨模型开发成本。
与ReAct的差异：
ReAct依赖提示引导模型输出工具调用，而Function Call通过训练让模型原生支持结构化指令，更适合复杂工具链和多步调用场景。

四、MCP：让工具"即插即用"的统一协议

尽管Function Call解决了工具调用的标准化问题，但不同智能体重复开发工具的问题仍未解决。Anthropic 2024年推出的MCP（Model Context Protocol），通过"客户端-服务器"架构，让工具实现"一次开发，多端复用"。

核心架构：
- 宿主（Host）：智能体应用，管理多个客户端的生命周期；
- 客户端（Client）：与单个服务器建立连接，负责请求路由和结果反馈；
- 服务器（Server）：提供工具、资源和提示模板，是工具的实际载体；
- 基础协议：基于JSON-RPC 2.0，支持STDIO（本地进程通信）和HTTP SSE（远程通信）。
工具复用逻辑：
开发者将工具封装为MCP Server（如高德地图的地图服务、支付宝的支付服务），智能体通过MCP Client接入服务器，即可获取工具列表并调用。例如，天气查询工具只需开发一次，所有智能体都能通过MCP复用。
与Function Call的关系：
MCP是工具管理的"上层协议"，其工具调用仍依赖Function Call实现。通过MCP，智能体可一键接入海量工具，大幅降低开发成本。

五、工程实践：用Spring AI搭建工具调用智能体

以Java生态的Spring AI和Spring AI Alibaba为例，可快速实现从基础对话到复杂工具调用的智能体。

无工具调用场景：
初始化ChatClient，传入大模型实例（如通义千问），通过prompt().user(问题).call()直接获取回答，适用于简单问答。
Function Call实战：
1. 定义工具类（如WeatherTool），用@Tool注解标记方法（如getDailyWeather）；
2. 初始化ChatClient时传入工具实例，模型会自动判断是否调用工具；
3. 交互流程：用户提问→模型返回工具调用指令→智能体执行工具→模型基于结果生成答案。
MCP Server/Client实现：
- Server端：将工具封装为MCP Server，支持STDIO（本地调用）或HTTP SSE（远程调用），通过@mcp.tool()标记工具方法；
- Client端：智能体通过McpClient连接Server，获取工具列表并调用，实现工具"跨应用复用"。

六、Manus：从ReAct到通用智能体的进化

2025年推出的Manus是通用智能体的代表，其核心是CodeAct（ReAct的升级）：每步思考输出包含多个工具调用的代码，减少交互步数。例如，操作浏览器时，模型直接生成"打开网页→点击按钮→提取信息"的代码，而非单步指令。

复刻示例：
基于OpenManus思路，用MCP集成三类工具：
- 浏览器操作（puppeteer_navigate打开网页）；
- 文件读写（read_file/write_file处理本地数据）；
- 代码执行（python_execute运行脚本）。
  智能体可完成"从百度爬取天气→分析是否适合跑步→写入本地文件"的端到端任务。

结语：工具调用是AI智能体的"进化引擎"

从ReAct的"边想边做"，到Function Call的"标准化交互"，再到MCP的"工具复用"，工具调用技术正在让AI智能体从"能说会道"走向"能做实事"。未来，随着Manus等通用智能体的成熟，AI将在办公自动化、智能家居、工业控制等领域实现深度落地，真正成为人类的"数字助手"。掌握这些技术，将是把握AI时代机遇的关键。

总结

此文章有对应的配套新书教材和视频：

【配套新书教材】
《GPT多模态大模型与AI Agent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】
新书特色：《GPT多模态大模型与AI Agent智能体》（跟我一起学人工智能）是一本2025年清华大学出版社出版的图书，作者是陈敬雷，本书深入探讨了GPT多模态大模型与AI Agent智能体的技术原理及其在企业中的应用落地。
全书共8章，从大模型技术原理切入，逐步深入大模型训练及微调，还介绍了众多国内外主流大模型。LangChain技术、RAG检索增强生成、多模态大模型等均有深入讲解。对AI Agent智能体，从定义、原理到主流框架也都进行了深入讲解。在企业应用落地方面，本书提供了丰富的案例分析，如基于大模型的对话式推荐系统、多模态搜索、NL2SQL数据即席查询、智能客服对话机器人、多模态数字人，以及多模态具身智能等。这些案例不仅展示了大模型技术的实际应用，也为读者提供了宝贵的实践经验。
本书适合对大模型、多模态技术及AI Agent感兴趣的读者阅读，也特别适合作为高等院校本科生和研究生的教材或参考书。书中内容丰富、系统，既有理论知识的深入讲解，也有大量的实践案例和代码示例，能够帮助学生在掌握理论知识的同时，培养实际操作能力和解决问题的能力。通过阅读本书，读者将能够更好地理解大模型技术的前沿发展，并将其应用于实际工作中，推动人工智能技术的进步和创新。

【配套视频】

清华《GPT多模态大模型与AI Agent智能体》书籍配套视频【陈敬雷】
视频特色： 前沿技术深度解析，把握行业脉搏

实战驱动，掌握大模型开发全流程

智能涌现与 AGI 前瞻，抢占技术高地

上一篇：《GPT多模态大模型与AI Agent智能体》系列一》大模型技术原理 - 大模型技术的起源、思想
下一篇：DeepSeek大模型技术系列五》DeepSeek大模型基础设施全解析：支撑万亿参数模型的幕后英雄

脑启社区

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区，共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐

快讯｜复旦发布全球首篇WAM系统性综述366篇论文绘制技术版图，飞捷科思自研可微分物理引擎Fysics指标超8B模型，维泛智能类脑芯片BiGPU融合ANN与SNN，Sim2Real实证：空间特征泛化远

脑启社区

EM-Core自动驾驶类脑世界模型——全域客观认知底座（V1.0 正式版）

本文档为 EM-Core 自动驾驶认知系统的核心认知底座规范，是 ECC 认知大脑开展推理、预判、决策的**唯一客观依据**。本模型与 MLNF-Mem 记忆中枢完全物理解耦，作为漏斗外侧独立挂载的外置模块（ad-44）运行，仅通过 `WM_QUERY` 标准消息向 ECC-01 情境解析模块和 ECC-03 因果推理模块提供风险向量与属性查询服务，不参与记忆晋升、遗忘或行为决策。适用于全场景自动