从“语言巨人”到“行动能手”:AI浪潮下的终极答案?——大模型与智能体深度解析
《GPT多模态大模型与AI Agent智能体》深度解析了AI技术从"语言巨人"到"行动能手"的演进。文章对比了大模型(LLM)和智能体(Agent)的本质差异:大模型擅长语言理解与生成,但缺乏记忆和行动能力;智能体则整合了记忆、规划、工具使用等能力,能处理复杂任务。当前AI行业正经历从大模型向智能体的转型,国内外科技巨头纷纷布局,但同时也面临技术瓶颈和概念炒
注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
清华《GPT多模态大模型与AI Agent智能体》书籍配套视频课程【陈敬雷】
文章目录
GPT多模态大模型与AI Agent智能体系列七十七
从“语言巨人”到“行动能手”:AI浪潮下的终极答案?——大模型与智能体深度解析
2023年,AI行业的关键词从“大模型”转向了“Agent”(智能体)。从科技巨头到创业公司,再到政府机构,都在疯狂推进Agent相关技术。OpenAI的ChatGPT Plugins、Auto GPT、微软的Copilot、百度的“灵境”、阿里的“通义千问(Qwen - Agent)”等,各大厂商纷纷入局。据IDC研究显示,预计到2025年,全球AI市场的年复合增长率将攀升至20%以上。但与此同时,质疑声也不断,Agent概念的出现是否仅仅因为“AI讲不出新故事了”?要解答这个问题,我们首先需要厘清大模型(LLM)和智能体(Agent)的本质区别,以及它们在AI发展浪潮中的角色。
一、大模型(LLM):强大的“语言巨人”
大模型,即大型语言模型,是基于海量文本数据训练而成的AI系统。它最常见的形态就是post - training之后的聊天机器人,只不过比起以前的智障chatbot强大了太多。大多数情况下,它可以像人类一样给你一个有效的回复,你问他天文地理他给你回答天文地理,你问他代码写作他就回答代码写作。
大模型的核心能力在于对语言的理解和生成。它能够处理自然语言输入,理解其中的含义,并生成符合语法和逻辑的自然语言输出。例如,当你让它写一篇关于“人工智能发展历史”的文章时,它能凭借其训练数据中的知识,从头到尾一次性完成这篇文章的撰写。
然而,大模型也存在明显的局限性。它本身是无状态的,只是根据提问回答,不记忆任何信息。在处理复杂任务时,往往只能进行单次的问答交互,缺乏迭代优化的空间。而且,大模型的训练数据存在滞后性,对于最新的信息和动态,它往往无法及时获取和处理。
二、智能体(Agent):崛起的“行动能手”
“智能体”英文叫AI Agent,Open AI对它的定义是具有自主理解、感知、规划、记忆和使用工具的能力,有独立思考和行动能力,并以大脑为驱动。AI Agent不只是大多数人接触到的AI工具类软件程序,还可以是AI机器人、乃至虚拟角色等。
(一)智能体的构成
按照Lilian Weng的公式,Agent等于llm加上记忆,规划,工具和行为能力。
- 记忆:因为llm本身是无状态的,若要解决复杂任务,可能需要多次问答,甚至希望每次解决任务都能用到之前任务的经验,这时就需要记忆来传递多次问答之间的信息。
- 规划:将复杂任务拆解为多个问答的能力,把抽象的任务具体到llm要接收什么信息,要回答什么,按照什么顺序问答,让整个输出有逻辑,增加模型决策和输出的可靠性,提高解决方案的可追踪性和可验证性。
- 工具和行为:让llm能够与训练语料以外的世界通过语言形式交互,使模型具备使用工具的能力,从而从外部获取信息,执行对应的任务。
从RPA(机器人流程自动化)的角度看,更倾向于智能体 = 大模型(脑袋)+ RPA(手)。RPA结合大模型(如gpt、kimi等)形成的“数字员工”,就是智能体在实际应用中的一种体现,不过目前真正实现“脑子”与“手”结合的还较少,大多停留在概念上。
(二)智能体的工作模式
以写文章为例,LLM的对话是你输入一个提示,大模型生成一个答案。而Agent代理则不同,它会先询问你是否需要进行一些网络研究,然后写下初稿,再回顾初稿,思考哪些部分需要修改,不断进行思考和迭代这个过程。这个流程是一个思考 + 迭代的过程,通过多次迭代来完善成果。
(三)智能体的优势
Agent对于某些问题能带来显著的效果。在实际测试中,选择与模型直接对话,使用GPT 3.5进行零样本提示,合格率/准确率是48%,GPT 4能达到67%。而采用代理工作流程,应用于GPT 3.5,实际的合格率/准确率比GPT 4还高,能大幅提升模型的性能。
三、大模型与智能体的本质区别
| 对比维度 | 大模型(LLM) | 智能体(Agent) |
|---|---|---|
| 核心能力 | 语言理解与生成 | 自主理解、感知、规划、记忆、使用工具和行动 |
| 工作模式 | 单次问答,输入提示生成答案 | 多轮迭代,思考、行动、反思、优化 |
| 状态性 | 无状态,不记忆信息 | 有记忆,能传递多次交互信息 |
| 工具使用 | 自身无法直接使用外部工具 | 具备使用外部工具的能力 |
| 复杂任务处理 | 难以直接完成,缺乏迭代优化 | 可拆解复杂任务,逐步优化完成 |
从nlp的发展历程来看,当我们希望一个language model从solve task in nlp变成solve task with language时,它就变成了一个Agent。大模型更多的是在语言层面解决问题,而智能体则是在语言的基础上,通过一系列能力的整合,实现了从语言到行动的跨越,能够真正地去解决实际任务。
四、智能体的热潮与争议
(一)行业布局
自2023年Auto GPT和Baby AGI等实验性项目出现后,科技巨头、初创公司、研究机构纷纷入局AI Agent领域。
- 国外:OpenAI、Google、Meta、微软等加大研发投入,推出相关产品和研究成果。
- 国内:阿里推出Qwen2.5-Max模型,其视觉Agent可自动完成查询、预订等任务,阿里云在百炼平台全面支持MCP服务部署和调用;腾讯云发布支持MCP插件托管服务的“AI开发套件”;字节跳动Dev Infra团队内部开发出类似Manus的智能体产品Dev Agent;百度上线文心大模型4.5及文心大模型X1,并在MCP Server领域发力;智谱AI的Auto GLM引发关注;第四范式凭借数百个企业级Agent应用深入多个垂直行业。
中信证券的研报预测,2025年会是AI Agent的“商业爆发元年”,市场规模可能达数百亿美元。
(二)典型案例与争议
全球首款通用型AI智能体产品Manus宣称,只需对着电脑说出“帮我做一份特斯拉2024年的年报分析PPT,十页左右”这样的指令,它便会在独立的虚拟机中,自行联网搜索数据和资料,调用办公软件,生成完整的PPT并输出。3月6日发布后瞬间引爆AI圈,邀请码在闲鱼上被炒到10万天价。
然而,不到48小时,舆论出现反转。许多人质疑其功能不具技术自主创新,本质是将成熟技术“封装套壳”,再加上邀请码的饥饿营销,被认为是借AI热度的炒作。尽管官方团队做出澄清,但舆论风向并未明显改变。相关部门曾考虑将其作为典型推广,后因争议暂缓。
五、从Agent到Agentic AI:技术的演进
随着技术演进,Agent概念也在不断向Agentic AI演变。2024年3月26日,吴恩达在红杉资本人工智能峰会上发表《Agentic Reasoning》演讲,率先提及Agentic AI。
相较于传统Agent,Agentic AI不再是被动接受指令的角色,而是被赋予主动思考、规划和执行任务的能力,更像能自主决策的智能体。传统的大型语言模型交互多为用户输入指令,模型输出结果,属于“非代理型工作流程”,处理复杂任务时缺乏迭代优化空间。而Agentic AI借助“代理型工作流程”,将复杂任务拆解为多个步骤,通过循环迭代逐步优化结果,与人类解决问题的思维模式更为接近。
OpenAI白皮书着重强调了Agentic AI的“Agenticness”,即系统所具备的智能性,使其能够在复杂环境中灵活适应,朝着长远目标稳步迈进。Agentic AI不仅是数据处理工具,更是智能伙伴,能像人类一样推理、学习并优化行为。在客户服务、流程管理等领域,它展现出卓越效率与灵活性,自主处理客户需求,优化服务体验。其核心理念在于赋予机器代理权,使其能主动规划、预测并决策,成为业务运营中的得力助手,标志着AI从辅助工具向自主管理者的转变。
六、真风口还是伪命题?
回顾AI的发展历程,每一次重大突破和变革,都离不开技术创新和应用场景拓展。从图灵测试到深度学习,从专家系统到GPT,AI的发展始终遵循技术驱动和需求牵引的双轮驱动模式。
Agent或许是AI发展的一个重要方向,但绝不是唯一的方向。目前来看,它在处理复杂任务、提高工作效率等方面展现出巨大的潜力,各大厂商的积极布局和市场的高预期也显示出其可能成为“真风口”。然而,技术上的瓶颈、实际应用中的问题以及概念炒作等现象,也让它面临“伪命题”的质疑。
技术的演进从来不是非黑即白的选择,Agent与Agentic AI更像是AI发展图谱中的重要坐标,而非终极答案。对于AI来说,重要的不是追逐某个热门概念,而是持续投入研发,推动技术的创新和突破,同时深入挖掘用户的需求,拓展AI的应用场景。在这个充满无限可能的领域,我们需要保持开放的心态和创新的精神,去探索更多的可能性,讲述更多精彩的故事。
从大模型到智能体,AI正在从“语言巨人”向“行动能手”转变,这一转变是否能成为AI浪潮下的终极答案,还需要时间的检验。但可以肯定的是,这一演进过程必将深刻影响我们的生活和工作,推动社会向更智能、高效的方向发展。
更多技术内容
更多技术内容可参见
清华《GPT多模态大模型与AI Agent智能体》书籍配套视频【陈敬雷】。
更多的技术交流和探讨也欢迎加我个人微信chenjinglei66。
总结
此文章有对应的配套新书教材和视频:
【配套新书教材】
《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)【陈敬雷编著】【清华大学出版社】
新书特色:《GPT多模态大模型与AI Agent智能体》(跟我一起学人工智能)是一本2025年清华大学出版社出版的图书,作者是陈敬雷,本书深入探讨了GPT多模态大模型与AI Agent智能体的技术原理及其在企业中的应用落地。
全书共8章,从大模型技术原理切入,逐步深入大模型训练及微调,还介绍了众多国内外主流大模型。LangChain技术、RAG检索增强生成、多模态大模型等均有深入讲解。对AI Agent智能体,从定义、原理到主流框架也都进行了深入讲解。在企业应用落地方面,本书提供了丰富的案例分析,如基于大模型的对话式推荐系统、多模态搜索、NL2SQL数据即席查询、智能客服对话机器人、多模态数字人,以及多模态具身智能等。这些案例不仅展示了大模型技术的实际应用,也为读者提供了宝贵的实践经验。
本书适合对大模型、多模态技术及AI Agent感兴趣的读者阅读,也特别适合作为高等院校本科生和研究生的教材或参考书。书中内容丰富、系统,既有理论知识的深入讲解,也有大量的实践案例和代码示例,能够帮助学生在掌握理论知识的同时,培养实际操作能力和解决问题的能力。通过阅读本书,读者将能够更好地理解大模型技术的前沿发展,并将其应用于实际工作中,推动人工智能技术的进步和创新。
【配套视频】
清华《GPT多模态大模型与AI Agent智能体》书籍配套视频【陈敬雷】
视频特色: 前沿技术深度解析,把握行业脉搏
实战驱动,掌握大模型开发全流程
智能涌现与 AGI 前瞻,抢占技术高地
上一篇:《GPT多模态大模型与AI Agent智能体》系列一》大模型技术原理 - 大模型技术的起源、思想
下一篇:DeepSeek大模型技术系列五》DeepSeek大模型基础设施全解析:支撑万亿参数模型的幕后英雄
更多推荐


所有评论(0)