前言

最近陆陆续续的发布了很多的智能体,有拿Agent做唯一产品的Manus这样的明星产品;以及本身就是大模型产品基于自己模型开发的Agent,比如Kimi的Kimi-researcher,以及MiniMax最近开源周放出来的MiniMax Agent。

但如果仔细观察的话,这些公司的产品中有一个大类是共通的,那就是去解决一个问题:「怎么去写好一份报告?」

这几个产品,包括古早就出现的OpenAI和Gemini都有的Deep Research功能,其实也是在做类似的事情,而这件事情想要做好,想要依靠单独的某个模型,在现在的技术体系下绝无可能,从问题到结果,最少需要三个能力。

  1. 联网搜索:大模型的记忆大多停留在2024年,这是因为大模型的固有训练逻辑,从训练好,到微调,再到最终发布,几个月到半年起,所以你问他现在的事情,必须通过联网搜索获取。
  2. 推理思考:资料搜集是一方面,而搜索大多依赖于关键字,很多关键字对应的信息其实是有冲突的,信息冲突只是其中一方面,而碰到冲突就需要大模型得具备推理和思考的能力,像人一样的去做判断。
  3. 访问信息:搜集到的信息可能有很多种类型,最普通的就是网页上的文字,但如果碰到的是图片上的文字,视频信息甚至一些质量很差但是唯一信源的声音信息,起码的广泛的信息访问技术是必要的。

图片

你会发现,不可能有任何一个单一的大模型可以完成「怎么去写好一份报告这件事」,不管怎么样,都需要给现有的大模型加一些插件才行,而这个过程,其实跟“人类和动物的最大区别是对于工具的使用”异曲同工。

AI Agent并没有本质上提升某个模型的智力,只不过是学会了如何使用工具而已。

而如何使用工具,使用说明工具以及多大程度的依靠工具,就产生了现有的实现AI Agent智能体的三种方法:

  • 单体推理模型:典型如OpenAI,这种架构的核心思想是依赖一个单一、巨大且能力全面的大语言模型来统一处理任务的各个方面,包括理解查询、规划步骤、执行工具(如搜索)以及综合信息生成最终答案。

  • 多模型智能体模型:Teamo非常典型,这种架构将一个复杂的任务分解成多个子任务,并为每个子任务分配一个专门的、角色清晰的AI智能体。这些智能体在一个“主管”或协调者的管理下协同工作,共同完成最终目标。并且根据不同任务的特性使用不同的模型,比如写代码用Claude,论文写作用Gemini,讲究的是借力。

  • RAG中心化智能体:Perplexity是代表,这种架构的设计哲学将事实准确性置于最高优先级。其核心是检索增强生成(Retrieval-Augmented Generation, RAG)。整个工作流程围绕“先检索,后生成”展开:首先,系统实时从可信的外部来源(如互联网)检索与查询相关的信息;然后,利用大语言模型将这些检索到的、有事实依据的信息进行综合、提炼和组织,最终生成答案。

单体推理模型

对于单体推理模型来说,最常见的就是大模型公司,比如OpenAI的Deep Research,MiniMax,以及Kimi的Researcher,他们的Agent就是基于自身大模型的产品,所以于情于理也不可能用别家的,这是大模型公司做应用的执念,即使只是暂时的。

下图从左到右,从上到下分别是OpenAI的Deep Research,MiniMaX Agent,Kimi Researcher,Gemini的Deep Research。

图片

这4个例子的背后公司肯定会有一个主打的模型,比如OpenAI的o系列,Kimi的k系列,以及MiniMax最近刚刚出的M1模型,Gemini的Gemini-2.5系列,都是在大模型领域非常能打的存在。也依靠他们的明星产品拥有不少的忠实用户,这是他们能做单体推理模型的底气。

图片

优势

  1. 强大的通用推理与灵活性:由于所有任务都在一个统一的“思维空间”内完成,单体模型可能发展出更强的通用问题解决能力。它不受限于预设的、僵化的角色分工,因此在面对从未见过或结构模糊的复杂任务时,可能表现出更高的灵活性和适应性。
  2. 整体性理解:模型能够对任务形成一个连贯、整体的理解,因为从输入到输出的所有中间步骤和思考过程都是内在关联的,而不是在不同模块间传递。

劣势

  1. 更高的“幻觉”风险:这是该架构最主要的弱点。强大的生成能力意味着模型在信息不足或推理出错时,更容易“编造”事实,即产生幻觉。OpenAI也明确指出,其Deep Research智能体虽然比普通模型出错率低,但仍会偶尔产生幻觉,并且在区分权威信息和网络谣言方面存在困难。
  2. 不透明的“黑箱”问题:推理过程是模型内部的复杂神经活动,外界难以精确地审视其决策逻辑。当模型给出一个答案时,我们很难完全理解它是如何一步步推导出来的,这在需要高可靠性和可解释性的关键应用中是一个重大障碍。
  3. 巨大的计算成本:训练和运行一个能处理所有任务的、最前沿的单一模型,需要极其庞大的计算资源和资金投入。

总的来说,单体推理模型需要一个非常强的AI大模型,不然智力程度完全不够,但这也需要前提投入大量的资金先去做模型,然后再基于此作应用。再加上在做应用的时候只用自家模型,所以模型的缺点肯定也会带到Agent上。

多模型智能体模型

多模型智能体模型,往往存在于主营业务甚至就智能体这一个业务,他们要实现的就是极致的效果和性能,所以他们会针对于不同的任务采用不同的模型,选择的多样性和灵活度要远高于单体推理模型。

比如Teamo,非常的经典多模型智能体,下图就是Teamo设置不同Agent,主要分为几个组,比如搜索组、写作组、咨询组和一些未上线的组别,并且每个组都有组长和组员不同角色。

图片

细看的话,搜索组的搜索员就只有两个模型可以用,Claude-4-sonnet和Opus,这么说吧,这俩模型在大模型领域的定价算是非常贵的那种了,如果不是在实践中发现这俩模型的性能最好,或者说只有这俩模型的性能才能满足需求,那断然不会只用这俩的。

图片

通用深度写作员就是一个例子,你可以看到它可用的模型有很多,Gemini-2.5-Pro,DeepSeek-V3,GPT,Claude,甚至不常见的Grok3都有。

这几个之间的价格差别还是比较明显的,像DeepSeek这种开源模型价格要远低于闭源模型,但是实践中发现这些模型之间的实际表现估计差别不明显。

图片

Manus也一样,据其中一个创始人,Manus主要用的两家模型,Claude和Qwen,估计也是考虑到了性能和价格之间的平衡,只用Claude的确要贵不少。

图片

图片

优势

  1. 流程透明且可控:由于任务被明确地分解到不同的专业智能体,整个工作流程变得清晰可见。例如,可以看到“生成”智能体提出了哪些假设,“反思”智能体又如何对其进行评估。这种模块化设计使得调试、监督和干预变得更加容易。
  2. 专业分工带来的高质量:每个智能体都可以被专门优化以精通其特定任务。就像人类团队一样,让“创意专家”负责头脑风暴,让“批判专家”负责评估,理论上可以在每个环节都达到更高的质量水平。
  3. 任务并行处理:不同的子任务可以由多个智能体同时执行,从而可能提高整体的效率和速度。

劣势

  1. 通信与协调开销:智能体之间需要高效地沟通和传递信息,这会引入额外的计算开销和系统复杂性。如果协调机制设计不当,可能会导致效率瓶颈。
  2. 管理复杂性高:设计和管理“主管”智能体与各个专业智能体之间的复杂互动是一项挑战。整个系统的最终表现高度依赖于这种协调与管理机制的优劣。

创业公司青睐这种方式,毕竟不需要自己做模型,只需要用现成的,还可以什么好用就用什么,不好用立马下线,但缺点也很明显,就是被复制的概率非常大,因为核心技术依赖于大模型,而次核心的工程技术容易被大公司用人海战术迅速追上甚至反超。

RAG中心化智能体

这种智能体其实不算多,因为它的设计哲学偏向于「索引」,这就意味着「检索」的优先级最高,简单来说就是收集更多的信息,然后交给大模型去整理。而这里面资料的储存和利用就用了RAG这个技术,它的全名叫检索增强生成(Retrieval-Augmented Generation)。

可以根据下面的图来理解,比如我们问2025年6月22日人民币和美元的汇率是多少,那么没有联网的大模型绝对不可能知道,因为它的固有缺陷(训练数据滞后于模型发布时间)。所以这个时候就需要先去联网获取外部资料,然后大模型去根据外部资料去做回答。

图片

这里面的典型模型其实就有知乎直答、秘塔AI搜索和Perplexity AI,都是先做大量的检索,然后根据检索资料进行汇总和分析。

这里面的区别就是检索信息来源的不同,每家平台会采用不同的信源,像知乎就用的自己平台回答多一些,微博和腾讯元宝也有类似的功能,都是优先采用自己的信源。

图片

这种用的模型一般都是自研或者开源模型,因为它的核心在于信息的“可溯源”,而这一点儿只需要大模型照章办事即可。

优势

  1. 极高的事实准确性与可追溯性:这是该架构最突出的优点。由于所有答案都牢固地植根于检索到的真实世界信息,并且总是附带来源引用,用户可以轻松验证信息的真伪。其核心原则是“不生成任何未检索到的信息”。
  2. 幻觉风险极低:大语言模型在这里的主要角色是“组织者”和“转述者”,而非“创作者”。因为它不依赖其内部记忆来生成事实性内容,所以产生幻觉的风险被降到了最低。
  3. 来源透明:用户能清晰地看到每一条信息来自何处,这在学术研究、新闻调查等需要严肃事实核查的场景中至关重要。

劣势

  1. 能力受限于可检索的信息:系统的能力上限被其信息检索系统所束缚。如果一个问题的答案无法通过现有渠道检索到,那么该系统也无法凭空创造出来。
  2. 纯粹抽象推理和创造力受限:对于那些需要超越现有数据、进行纯粹逻辑推演或提出全新原创概念的任务,这种方法表现不佳。它擅长综合已知,而非探索未知。

它的优劣势很明显,信息可溯源就是最大的优势,但同样限制了大模型的能力,就是严重受限于检索到的数据质量,同时它也不太可能突破现有信息的限制,去创造新的知识。

这三种当下的Agent范式都有各自的优缺点,特别是在实现上其实重合的地方很多,不过各自的侧重点是能让各自都能在领域里面脱颖而出的主要原因。这个新兴市场的未来演进路径正逐渐清晰。

当前一代的研究智能体,主要专注于自动化现有的「人类资料密集型工作」流程,例如文献综述、事实查找、行动规划等。不过未来不管是AI还是AI Agent,都不可能止步于总结现有人类的知识或者经验,而是更多的将精力投入到「发现或者发明」新的知识上。

最后

为什么要学AI大模型

当下,⼈⼯智能市场迎来了爆发期,并逐渐进⼊以⼈⼯通⽤智能(AGI)为主导的新时代。企业纷纷官宣“ AI+ ”战略,为新兴技术⼈才创造丰富的就业机会,⼈才缺⼝将达 400 万!

DeepSeek问世以来,生成式AI和大模型技术爆发式增长,让很多岗位重新成了炙手可热的新星,岗位薪资远超很多后端岗位,在程序员中稳居前列。

在这里插入图片描述

与此同时AI与各行各业深度融合,飞速发展,成为炙手可热的新风口,企业非常需要了解AI、懂AI、会用AI的员工,纷纷开出高薪招聘AI大模型相关岗位。
在这里插入图片描述
最近很多程序员朋友都已经学习或者准备学习 AI 大模型,后台也经常会有小伙伴咨询学习路线和学习资料,我特别拜托北京清华大学学士和美国加州理工学院博士学位的鲁为民老师给大家这里给大家准备了一份涵盖了AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频 全系列的学习资料,这些学习资料不仅深入浅出,而且非常实用,让大家系统而高效地掌握AI大模型的各个知识点。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

AI大模型系统学习路线

在面对AI大模型开发领域的复杂与深入,精准学习显得尤为重要。一份系统的技术路线图,不仅能够帮助开发者清晰地了解从入门到精通所需掌握的知识点,还能提供一条高效、有序的学习路径。

img

但知道是一回事,做又是另一回事,初学者最常遇到的问题主要是理论知识缺乏、资源和工具的限制、模型理解和调试的复杂性,在这基础上,找到高质量的学习资源,不浪费时间、不走弯路,又是重中之重。

AI大模型入门到实战的视频教程+项目包

看视频学习是一种高效、直观、灵活且富有吸引力的学习方式,可以更直观地展示过程,能有效提升学习兴趣和理解力,是现在获取知识的重要途径

在这里插入图片描述
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

海量AI大模型必读的经典书籍(PDF)

阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。
在这里插入图片描述

600+AI大模型报告(实时更新)

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

AI大模型面试真题+答案解析

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下
在这里插入图片描述

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

Logo

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区,共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐