从“语言巨人”到“行动能手”：AI浪潮下的终极答案？——大模型与智能体深度解析

《GPT多模态大模型与AI Agent智能体》深度解析了AI技术从"语言巨人"到"行动能手"的演进。文章对比了大模型（LLM）和智能体（Agent）的本质差异：大模型擅长语言理解与生成，但缺乏记忆和行动能力；智能体则整合了记忆、规划、工具使用等能力，能处理复杂任务。当前AI行业正经历从大模型向智能体的转型，国内外科技巨头纷纷布局，但同时也面临技术瓶颈和概念炒

陈敬雷-充电了么-CEO兼CTO

1024人浏览 · 2025-08-04 21:27:21

陈敬雷-充电了么-CEO兼CTO · 2025-08-04 21:27:21 发布

注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】

清华《GPT多模态大模型与AI Agent智能体》书籍配套视频课程【陈敬雷】

GPT多模态大模型与AI Agent智能体系列七十七

从“语言巨人”到“行动能手”：AI浪潮下的终极答案？——大模型与智能体深度解析

2023年，AI行业的关键词从“大模型”转向了“Agent”（智能体）。从科技巨头到创业公司，再到政府机构，都在疯狂推进Agent相关技术。OpenAI的ChatGPT Plugins、Auto GPT、微软的Copilot、百度的“灵境”、阿里的“通义千问（Qwen - Agent）”等，各大厂商纷纷入局。据IDC研究显示，预计到2025年，全球AI市场的年复合增长率将攀升至20%以上。但与此同时，质疑声也不断，Agent概念的出现是否仅仅因为“AI讲不出新故事了”？要解答这个问题，我们首先需要厘清大模型（LLM）和智能体（Agent）的本质区别，以及它们在AI发展浪潮中的角色。

一、大模型（LLM）：强大的“语言巨人”

大模型，即大型语言模型，是基于海量文本数据训练而成的AI系统。它最常见的形态就是post - training之后的聊天机器人，只不过比起以前的智障chatbot强大了太多。大多数情况下，它可以像人类一样给你一个有效的回复，你问他天文地理他给你回答天文地理，你问他代码写作他就回答代码写作。

大模型的核心能力在于对语言的理解和生成。它能够处理自然语言输入，理解其中的含义，并生成符合语法和逻辑的自然语言输出。例如，当你让它写一篇关于“人工智能发展历史”的文章时，它能凭借其训练数据中的知识，从头到尾一次性完成这篇文章的撰写。

然而，大模型也存在明显的局限性。它本身是无状态的，只是根据提问回答，不记忆任何信息。在处理复杂任务时，往往只能进行单次的问答交互，缺乏迭代优化的空间。而且，大模型的训练数据存在滞后性，对于最新的信息和动态，它往往无法及时获取和处理。

二、智能体（Agent）：崛起的“行动能手”

“智能体”英文叫AI Agent，Open AI对它的定义是具有自主理解、感知、规划、记忆和使用工具的能力，有独立思考和行动能力，并以大脑为驱动。AI Agent不只是大多数人接触到的AI工具类软件程序，还可以是AI机器人、乃至虚拟角色等。

（一）智能体的构成

按照Lilian Weng的公式，Agent等于llm加上记忆，规划，工具和行为能力。

记忆：因为llm本身是无状态的，若要解决复杂任务，可能需要多次问答，甚至希望每次解决任务都能用到之前任务的经验，这时就需要记忆来传递多次问答之间的信息。
规划：将复杂任务拆解为多个问答的能力，把抽象的任务具体到llm要接收什么信息，要回答什么，按照什么顺序问答，让整个输出有逻辑，增加模型决策和输出的可靠性，提高解决方案的可追踪性和可验证性。
工具和行为：让llm能够与训练语料以外的世界通过语言形式交互，使模型具备使用工具的能力，从而从外部获取信息，执行对应的任务。

从RPA（机器人流程自动化）的角度看，更倾向于智能体 = 大模型（脑袋）+ RPA（手）。RPA结合大模型（如gpt、kimi等）形成的“数字员工”，就是智能体在实际应用中的一种体现，不过目前真正实现“脑子”与“手”结合的还较少，大多停留在概念上。

（二）智能体的工作模式

以写文章为例，LLM的对话是你输入一个提示，大模型生成一个答案。而Agent代理则不同，它会先询问你是否需要进行一些网络研究，然后写下初稿，再回顾初稿，思考哪些部分需要修改，不断进行思考和迭代这个过程。这个流程是一个思考 + 迭代的过程，通过多次迭代来完善成果。

（三）智能体的优势

Agent对于某些问题能带来显著的效果。在实际测试中，选择与模型直接对话，使用GPT 3.5进行零样本提示，合格率/准确率是48%，GPT 4能达到67%。而采用代理工作流程，应用于GPT 3.5，实际的合格率/准确率比GPT 4还高，能大幅提升模型的性能。

三、大模型与智能体的本质区别

对比维度	大模型（LLM）	智能体（Agent）
核心能力	语言理解与生成	自主理解、感知、规划、记忆、使用工具和行动
工作模式	单次问答，输入提示生成答案	多轮迭代，思考、行动、反思、优化
状态性	无状态，不记忆信息	有记忆，能传递多次交互信息
工具使用	自身无法直接使用外部工具	具备使用外部工具的能力
复杂任务处理	难以直接完成，缺乏迭代优化	可拆解复杂任务，逐步优化完成

从nlp的发展历程来看，当我们希望一个language model从solve task in nlp变成solve task with language时，它就变成了一个Agent。大模型更多的是在语言层面解决问题，而智能体则是在语言的基础上，通过一系列能力的整合，实现了从语言到行动的跨越，能够真正地去解决实际任务。

四、智能体的热潮与争议

（一）行业布局

自2023年Auto GPT和Baby AGI等实验性项目出现后，科技巨头、初创公司、研究机构纷纷入局AI Agent领域。

国外：OpenAI、Google、Meta、微软等加大研发投入，推出相关产品和研究成果。
国内：阿里推出Qwen2.5-Max模型，其视觉Agent可自动完成查询、预订等任务，阿里云在百炼平台全面支持MCP服务部署和调用；腾讯云发布支持MCP插件托管服务的“AI开发套件”；字节跳动Dev Infra团队内部开发出类似Manus的智能体产品Dev Agent；百度上线文心大模型4.5及文心大模型X1，并在MCP Server领域发力；智谱AI的Auto GLM引发关注；第四范式凭借数百个企业级Agent应用深入多个垂直行业。

中信证券的研报预测，2025年会是AI Agent的“商业爆发元年”，市场规模可能达数百亿美元。

（二）典型案例与争议

全球首款通用型AI智能体产品Manus宣称，只需对着电脑说出“帮我做一份特斯拉2024年的年报分析PPT，十页左右”这样的指令，它便会在独立的虚拟机中，自行联网搜索数据和资料，调用办公软件，生成完整的PPT并输出。3月6日发布后瞬间引爆AI圈，邀请码在闲鱼上被炒到10万天价。

然而，不到48小时，舆论出现反转。许多人质疑其功能不具技术自主创新，本质是将成熟技术“封装套壳”，再加上邀请码的饥饿营销，被认为是借AI热度的炒作。尽管官方团队做出澄清，但舆论风向并未明显改变。相关部门曾考虑将其作为典型推广，后因争议暂缓。

五、从Agent到Agentic AI：技术的演进

随着技术演进，Agent概念也在不断向Agentic AI演变。2024年3月26日，吴恩达在红杉资本人工智能峰会上发表《Agentic Reasoning》演讲，率先提及Agentic AI。

相较于传统Agent，Agentic AI不再是被动接受指令的角色，而是被赋予主动思考、规划和执行任务的能力，更像能自主决策的智能体。传统的大型语言模型交互多为用户输入指令，模型输出结果，属于“非代理型工作流程”，处理复杂任务时缺乏迭代优化空间。而Agentic AI借助“代理型工作流程”，将复杂任务拆解为多个步骤，通过循环迭代逐步优化结果，与人类解决问题的思维模式更为接近。

OpenAI白皮书着重强调了Agentic AI的“Agenticness”，即系统所具备的智能性，使其能够在复杂环境中灵活适应，朝着长远目标稳步迈进。Agentic AI不仅是数据处理工具，更是智能伙伴，能像人类一样推理、学习并优化行为。在客户服务、流程管理等领域，它展现出卓越效率与灵活性，自主处理客户需求，优化服务体验。其核心理念在于赋予机器代理权，使其能主动规划、预测并决策，成为业务运营中的得力助手，标志着AI从辅助工具向自主管理者的转变。

六、真风口还是伪命题？

回顾AI的发展历程，每一次重大突破和变革，都离不开技术创新和应用场景拓展。从图灵测试到深度学习，从专家系统到GPT，AI的发展始终遵循技术驱动和需求牵引的双轮驱动模式。

Agent或许是AI发展的一个重要方向，但绝不是唯一的方向。目前来看，它在处理复杂任务、提高工作效率等方面展现出巨大的潜力，各大厂商的积极布局和市场的高预期也显示出其可能成为“真风口”。然而，技术上的瓶颈、实际应用中的问题以及概念炒作等现象，也让它面临“伪命题”的质疑。

技术的演进从来不是非黑即白的选择，Agent与Agentic AI更像是AI发展图谱中的重要坐标，而非终极答案。对于AI来说，重要的不是追逐某个热门概念，而是持续投入研发，推动技术的创新和突破，同时深入挖掘用户的需求，拓展AI的应用场景。在这个充满无限可能的领域，我们需要保持开放的心态和创新的精神，去探索更多的可能性，讲述更多精彩的故事。

从大模型到智能体，AI正在从“语言巨人”向“行动能手”转变，这一转变是否能成为AI浪潮下的终极答案，还需要时间的检验。但可以肯定的是，这一演进过程必将深刻影响我们的生活和工作，推动社会向更智能、高效的方向发展。

总结

此文章有对应的配套新书教材和视频：

【配套新书教材】
《GPT多模态大模型与AI Agent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】
新书特色：《GPT多模态大模型与AI Agent智能体》（跟我一起学人工智能）是一本2025年清华大学出版社出版的图书，作者是陈敬雷，本书深入探讨了GPT多模态大模型与AI Agent智能体的技术原理及其在企业中的应用落地。
全书共8章，从大模型技术原理切入，逐步深入大模型训练及微调，还介绍了众多国内外主流大模型。LangChain技术、RAG检索增强生成、多模态大模型等均有深入讲解。对AI Agent智能体，从定义、原理到主流框架也都进行了深入讲解。在企业应用落地方面，本书提供了丰富的案例分析，如基于大模型的对话式推荐系统、多模态搜索、NL2SQL数据即席查询、智能客服对话机器人、多模态数字人，以及多模态具身智能等。这些案例不仅展示了大模型技术的实际应用，也为读者提供了宝贵的实践经验。
本书适合对大模型、多模态技术及AI Agent感兴趣的读者阅读，也特别适合作为高等院校本科生和研究生的教材或参考书。书中内容丰富、系统，既有理论知识的深入讲解，也有大量的实践案例和代码示例，能够帮助学生在掌握理论知识的同时，培养实际操作能力和解决问题的能力。通过阅读本书，读者将能够更好地理解大模型技术的前沿发展，并将其应用于实际工作中，推动人工智能技术的进步和创新。

【配套视频】

清华《GPT多模态大模型与AI Agent智能体》书籍配套视频【陈敬雷】
视频特色： 前沿技术深度解析，把握行业脉搏

实战驱动，掌握大模型开发全流程

智能涌现与 AGI 前瞻，抢占技术高地

上一篇：《GPT多模态大模型与AI Agent智能体》系列一》大模型技术原理 - 大模型技术的起源、思想
下一篇：DeepSeek大模型技术系列五》DeepSeek大模型基础设施全解析：支撑万亿参数模型的幕后英雄

脑启社区

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区，共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐

快讯｜复旦发布全球首篇WAM系统性综述366篇论文绘制技术版图，飞捷科思自研可微分物理引擎Fysics指标超8B模型，维泛智能类脑芯片BiGPU融合ANN与SNN，Sim2Real实证：空间特征泛化远

脑启社区

EM-Core自动驾驶类脑世界模型——全域客观认知底座（V1.0 正式版）

本文档为 EM-Core 自动驾驶认知系统的核心认知底座规范，是 ECC 认知大脑开展推理、预判、决策的**唯一客观依据**。本模型与 MLNF-Mem 记忆中枢完全物理解耦，作为漏斗外侧独立挂载的外置模块（ad-44）运行，仅通过 `WM_QUERY` 标准消息向 ECC-01 情境解析模块和 ECC-03 因果推理模块提供风险向量与属性查询服务，不参与记忆晋升、遗忘或行为决策。适用于全场景自动