AI概念扫盲篇之大模型中的Agent到底是什么

随着Manus智能体的爆火，不禁想了解一下到底什么是agent？想上手agent开发需要掌握哪些内容？如果大家也有同样的问题，那这篇文章将给大家答案！

测试开发Kevin

1063人浏览 · 2025-03-15 11:37:07

测试开发Kevin · 2025-03-15 11:37:07 发布

随着Manus智能体的爆火，不禁想了解一下到底什么是agent？想上手agent开发需要掌握哪些内容？如果大家也有同样的问题，那这篇文章将给大家答案！

一、大模型中的Agent是什么？

大模型中的Agent（智能体）是一种基于大型语言模型（LLM）构建的自主系统，能够感知环境、规划任务、调用工具并执行行动，最终完成复杂目标。其核心特点包括：

自主性：无需人工干预，自主决策和行动。
工具调用能力：通过集成外部API、数据库、代码解释器等工具扩展能力，例如天气查询、代码执行等。
任务分解与规划：将复杂任务拆解为子任务，并通过多步骤推理（如ReAct模式）逐步解决。
记忆与上下文管理：通过短期记忆（对话历史）和长期记忆（向量数据库）支持多轮交互。

Agent的典型运行流程为：用户输入→任务解析→工具调用→结果观察→最终回答，循环执行直至任务完成。大家可以参考下图：

二、Agent开发需要掌握的内容

1. 核心知识

大模型基础：理解LLM的工作原理，如GPT系列、开源模型（Qwen、Llama等）的API调用与参数调整。
Prompt工程：设计清晰的指令和上下文模板，引导模型正确调用工具（如ReAct、CoT提示）。
RAG技术：通过检索增强生成（Retrieval-Augmented Generation）结合外部知识库提升回答准确性。

2. 开发框架与工具

LangChain：主流开发框架，提供Agent、Memory、Tools等模块化组件，支持快速集成工具链。
工具库：熟悉常用工具（如搜索API、Python解释器、天气API）的定义与调用，需定义工具名称、描述、输入参数。
多Agent协作框架：如AutoGen、MetaGPT，支持多个Agent分工协作。

3. 编程技能

Python基础：大部分框架（如LangChain、Phidata）基于Python开发。
API集成：调用外部服务（如OpenAI、Google Search）并处理返回数据。
向量数据库：使用Pinecone、LanceDB等管理长期记忆。

三、Agent开发入门程序示例

以下是一个基于LangChain的天气查询Agent实现，代码注释详细说明关键步骤：

from langchain.agents import AgentExecutor, create_react_agent
from langchain.tools import tool
from langchain_openai import ChatOpenAI
from langchain import hub

# 1. 定义工具：天气查询
@tool
def get_weather(location: str) -> str:
    """查询指定城市的天气，输入为城市名称（如'北京'）"""
    # 示例：实际需替换为真实API调用（如OpenWeatherMap）
    return f"{location}天气：晴，25℃"

# 2. 配置大模型和提示模板
model = ChatOpenAI(model="gpt-3.5-turbo")
prompt = hub.pull("hwchase17/react")  # 使用ReAct提示模板

# 3. 创建Agent并执行
tools = [get_weather]
agent = create_react_agent(model, tools, prompt)
agent_executor = AgentExecutor(agent=agent, tools=tools, verbose=True)

# 4. 测试查询
response = agent_executor.invoke({"input": "上海现在天气如何？"})
print(response["output"])

代码解析

工具定义：通过@tool装饰器声明工具函数，需明确输入参数和功能描述。
模型与提示模板：使用ChatOpenAI调用大模型，react模板引导模型按“思考-行动”流程处理任务。
执行流程：Agent自动解析用户输入，调用天气工具并整合结果，最终生成自然语言回答。

四、进阶学习路径

工具扩展：集成更多API（如股票查询、新闻检索）。
记忆管理：添加向量数据库存储历史对话。
多Agent协作：使用AutoGen实现任务分派与协同。
部署优化：通过Gradio构建交互界面，或使用Docker容器化部署。

五、最后总结

基于LLM的Agent的概念框架由三个组件组成：大脑、感知和行动。作为控制器，大脑模块承担记忆、思考和决策等基本任务。感知模块感知和处理来自外部环境的多种模态信息，行动模块使用工具执行操作并影响周围环境。这里我们给出一个例子来说明工作流程：当人类询问是否会下雨时，感知模块将指令转换为LLMs可理解的表示。然后大脑模块根据当前天气和互联网上的天气预报开始推理。最后，行动模块做出响应并将雨伞交给人类。通过重复上述过程，agent可以不断获得反馈并与环境互动。

最后一句话总结，大家可以把agent理解为我们熟知的app即可！！！只不过agent是基于大语言模型的应用！！！

脑启社区

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区，共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐

快讯｜复旦发布全球首篇WAM系统性综述366篇论文绘制技术版图，飞捷科思自研可微分物理引擎Fysics指标超8B模型，维泛智能类脑芯片BiGPU融合ANN与SNN，Sim2Real实证：空间特征泛化远

脑启社区

EM-Core自动驾驶类脑世界模型——全域客观认知底座（V1.0 正式版）

本文档为 EM-Core 自动驾驶认知系统的核心认知底座规范，是 ECC 认知大脑开展推理、预判、决策的**唯一客观依据**。本模型与 MLNF-Mem 记忆中枢完全物理解耦，作为漏斗外侧独立挂载的外置模块（ad-44）运行，仅通过 `WM_QUERY` 标准消息向 ECC-01 情境解析模块和 ECC-03 因果推理模块提供风险向量与属性查询服务，不参与记忆晋升、遗忘或行为决策。适用于全场景自动