大模型MCP开发:从ReAct到Manus,大模型工具调用全解析!揭秘AI智能体如何“思考+动手“颠覆未来
本文系统解析了AI智能体工具调用技术的发展历程,从ReAct框架的"边想边做"到Function Call的标准化协议,再到MCP的"即插即用"工具复用机制,揭示了智能体从"能说会道"到"能做实事"的进化路径。文章详细阐述了智能体"大脑+四肢"的架构设计,包括规划、记忆和工具三大核心组件,并通过Sp
注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
清华《GPT多模态大模型与AI Agent智能体》书籍配套视频课程【陈敬雷】
文章目录
GPT多模态大模型与AI Agent智能体系列九十二
大模型MCP开发:从ReAct到Manus,大模型工具调用全解析!揭秘AI智能体如何"思考+动手"颠覆未来
在大语言模型(LLMs)飞速发展的今天,单一模型的知识边界和交互能力已难以满足复杂任务需求。AI智能体(AI Agent)通过引入工具调用机制,让大模型既能"思考"又能"动手",彻底突破了静态输出的局限。本文系统梳理了ReAct、Function Call、MCP等核心技术的原理与差异,并结合工程实践详解如何搭建具备工具调用能力的智能体,最终揭秘Manus这类通用智能体的技术本质。
一、智能体:让大模型拥有"大脑+四肢"的AI新形态
传统大模型依赖海量语料训练,虽内化了大量知识,却无法获取实时信息、操作外部环境,容易产生"幻觉"。AI智能体通过"大脑(大模型)+记忆+工具"的架构,实现了从"被动响应"到"主动决策"的跨越。
- 核心组件:
- 规划(Planning):大模型将复杂任务分解为子任务,通过"分而治之"逐步求解,并通过"自我反思"修正错误;
- 记忆(Memory):短期记忆依赖上下文窗口存储对话历史,长期记忆通过RAG(检索增强生成)调用外部向量数据库补充知识;
- 工具(Tool):作为"感官和四肢",工具让智能体既能获取外部信息(如天气、新闻),又能对环境施加影响(如操作浏览器、执行代码)。
二、ReAct:让大模型"边想边做"的推理框架
2023年Google与普林斯顿大学提出的ReAct(Reasoning+Acting),彻底改变了大模型的思考模式。它打破了传统"仅推理"(如CoT思维链)的局限,将"推理"与"行动"结合,让模型在解决问题时"边想边做"。
-
核心逻辑:
每步思考遵循"Thought(推理过程)→Action(工具调用)→Observation(结果反馈)“的循环。例如,回答"除苹果遥控器外,还有哪些设备能控制Front Row"时,模型会先推理"需要先查Apple Remote对应的程序”,再调用工具检索,最后根据结果继续分析。 -
实现方式:
通过提示工程引导模型输出固定格式:用自然语言描述思考过程,用结构化指令调用工具(如Search[关键词])。工具执行后,将结果作为"Observation"反馈给模型,形成闭环。 -
优势与局限:
优势在于可解释性强(暴露思考过程)、能动态获取外部信息;但依赖模型推理能力,需7B参数以上模型才能稳定发挥,且工具调用格式需通过提示严格约束。
三、Function Call:工具调用的标准化协议
OpenAI 2023年推出的Function Call,将工具调用从"提示工程"升级为"标准化协议",让大模型与工具的交互更高效、更可靠。
-
核心原理:
智能体将工具信息(名称、参数、描述)以JSON格式传入大模型,模型根据任务需求返回结构化的调用指令(含工具名和参数),智能体解析后执行工具,再将结果反馈给模型。 -
协议细节:
- 输入格式:包含
messages(对话历史)和tools(工具列表),工具需明确参数类型(如string)和必填项; - 输出格式:模型返回
tool_calls字段,指定调用的工具及参数,避免自然语言解析误差; - 适配性:主流大模型(如GPT-4、通义千问)均支持该协议,可通过统一SDK调用,降低跨模型开发成本。
- 输入格式:包含
-
与ReAct的差异:
ReAct依赖提示引导模型输出工具调用,而Function Call通过训练让模型原生支持结构化指令,更适合复杂工具链和多步调用场景。
四、MCP:让工具"即插即用"的统一协议
尽管Function Call解决了工具调用的标准化问题,但不同智能体重复开发工具的问题仍未解决。Anthropic 2024年推出的MCP(Model Context Protocol),通过"客户端-服务器"架构,让工具实现"一次开发,多端复用"。
-
核心架构:
- 宿主(Host):智能体应用,管理多个客户端的生命周期;
- 客户端(Client):与单个服务器建立连接,负责请求路由和结果反馈;
- 服务器(Server):提供工具、资源和提示模板,是工具的实际载体;
- 基础协议:基于JSON-RPC 2.0,支持STDIO(本地进程通信)和HTTP SSE(远程通信)。
-
工具复用逻辑:
开发者将工具封装为MCP Server(如高德地图的地图服务、支付宝的支付服务),智能体通过MCP Client接入服务器,即可获取工具列表并调用。例如,天气查询工具只需开发一次,所有智能体都能通过MCP复用。 -
与Function Call的关系:
MCP是工具管理的"上层协议",其工具调用仍依赖Function Call实现。通过MCP,智能体可一键接入海量工具,大幅降低开发成本。
五、工程实践:用Spring AI搭建工具调用智能体
以Java生态的Spring AI和Spring AI Alibaba为例,可快速实现从基础对话到复杂工具调用的智能体。
-
无工具调用场景:
初始化ChatClient,传入大模型实例(如通义千问),通过prompt().user(问题).call()直接获取回答,适用于简单问答。 -
Function Call实战:
- 定义工具类(如
WeatherTool),用@Tool注解标记方法(如getDailyWeather); - 初始化
ChatClient时传入工具实例,模型会自动判断是否调用工具; - 交互流程:用户提问→模型返回工具调用指令→智能体执行工具→模型基于结果生成答案。
- 定义工具类(如
-
MCP Server/Client实现:
- Server端:将工具封装为MCP Server,支持STDIO(本地调用)或HTTP SSE(远程调用),通过
@mcp.tool()标记工具方法; - Client端:智能体通过
McpClient连接Server,获取工具列表并调用,实现工具"跨应用复用"。
- Server端:将工具封装为MCP Server,支持STDIO(本地调用)或HTTP SSE(远程调用),通过
六、Manus:从ReAct到通用智能体的进化
2025年推出的Manus是通用智能体的代表,其核心是CodeAct(ReAct的升级):每步思考输出包含多个工具调用的代码,减少交互步数。例如,操作浏览器时,模型直接生成"打开网页→点击按钮→提取信息"的代码,而非单步指令。
- 复刻示例:
基于OpenManus思路,用MCP集成三类工具:- 浏览器操作(
puppeteer_navigate打开网页); - 文件读写(
read_file/write_file处理本地数据); - 代码执行(
python_execute运行脚本)。
智能体可完成"从百度爬取天气→分析是否适合跑步→写入本地文件"的端到端任务。
- 浏览器操作(
结语:工具调用是AI智能体的"进化引擎"
从ReAct的"边想边做",到Function Call的"标准化交互",再到MCP的"工具复用",工具调用技术正在让AI智能体从"能说会道"走向"能做实事"。未来,随着Manus等通用智能体的成熟,AI将在办公自动化、智能家居、工业控制等领域实现深度落地,真正成为人类的"数字助手"。掌握这些技术,将是把握AI时代机遇的关键。
更多技术内容
更多技术内容可参见
清华《GPT多模态大模型与AI Agent智能体》书籍配套视频【陈敬雷】。
更多的技术交流和探讨也欢迎加我个人微信chenjinglei66。
总结
此文章有对应的配套新书教材和视频:
【配套新书教材】
《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
新书特色:《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)是一本2025年清华大学出版社出版的图书,作者是陈敬雷,本书深入探讨了GPT多模态大模型与AI Agent智能体的技术原理及其在企业中的应用落地。
全书共8章,从大模型技术原理切入,逐步深入大模型训练及微调,还介绍了众多国内外主流大模型。LangChain技术、RAG检索增强生成、多模态大模型等均有深入讲解。对AI Agent智能体,从定义、原理到主流框架也都进行了深入讲解。在企业应用落地方面,本书提供了丰富的案例分析,如基于大模型的对话式推荐系统、多模态搜索、NL2SQL数据即席查询、智能客服对话机器人、多模态数字人,以及多模态具身智能等。这些案例不仅展示了大模型技术的实际应用,也为读者提供了宝贵的实践经验。
本书适合对大模型、多模态技术及AI Agent感兴趣的读者阅读,也特别适合作为高等院校本科生和研究生的教材或参考书。书中内容丰富、系统,既有理论知识的深入讲解,也有大量的实践案例和代码示例,能够帮助学生在掌握理论知识的同时,培养实际操作能力和解决问题的能力。通过阅读本书,读者将能够更好地理解大模型技术的前沿发展,并将其应用于实际工作中,推动人工智能技术的进步和创新。
【配套视频】
清华《GPT多模态大模型与AI Agent智能体》书籍配套视频【陈敬雷】
视频特色: 前沿技术深度解析,把握行业脉搏
实战驱动,掌握大模型开发全流程
智能涌现与 AGI 前瞻,抢占技术高地
上一篇:《GPT多模态大模型与AI Agent智能体》系列一》大模型技术原理 - 大模型技术的起源、思想
下一篇:DeepSeek大模型技术系列五》DeepSeek大模型基础设施全解析:支撑万亿参数模型的幕后英雄
更多推荐


所有评论(0)