AI概念扫盲篇之大模型中的Agent到底是什么
随着Manus智能体的爆火,不禁想了解一下到底什么是agent?想上手agent开发需要掌握哪些内容?如果大家也有同样的问题,那这篇文章将给大家答案!
随着Manus智能体的爆火,不禁想了解一下到底什么是agent?想上手agent开发需要掌握哪些内容?如果大家也有同样的问题,那这篇文章将给大家答案!
一、大模型中的Agent是什么?
大模型中的Agent(智能体)是一种基于大型语言模型(LLM)构建的自主系统,能够感知环境、规划任务、调用工具并执行行动,最终完成复杂目标。其核心特点包括:
-
自主性:无需人工干预,自主决策和行动。
-
工具调用能力:通过集成外部API、数据库、代码解释器等工具扩展能力,例如天气查询、代码执行等。
-
任务分解与规划:将复杂任务拆解为子任务,并通过多步骤推理(如ReAct模式)逐步解决。
-
记忆与上下文管理:通过短期记忆(对话历史)和长期记忆(向量数据库)支持多轮交互。
Agent的典型运行流程为:用户输入→任务解析→工具调用→结果观察→最终回答,循环执行直至任务完成。大家可以参考下图:

二、Agent开发需要掌握的内容
1. 核心知识
-
大模型基础:理解LLM的工作原理,如GPT系列、开源模型(Qwen、Llama等)的API调用与参数调整。
-
Prompt工程:设计清晰的指令和上下文模板,引导模型正确调用工具(如ReAct、CoT提示)。
-
RAG技术:通过检索增强生成(Retrieval-Augmented Generation)结合外部知识库提升回答准确性。
2. 开发框架与工具
-
LangChain:主流开发框架,提供Agent、Memory、Tools等模块化组件,支持快速集成工具链。
-
工具库:熟悉常用工具(如搜索API、Python解释器、天气API)的定义与调用,需定义工具名称、描述、输入参数。
-
多Agent协作框架:如AutoGen、MetaGPT,支持多个Agent分工协作。
3. 编程技能
-
Python基础:大部分框架(如LangChain、Phidata)基于Python开发。
-
API集成:调用外部服务(如OpenAI、Google Search)并处理返回数据。
-
向量数据库:使用Pinecone、LanceDB等管理长期记忆。
三、Agent开发入门程序示例
以下是一个基于LangChain的天气查询Agent实现,代码注释详细说明关键步骤:
from langchain.agents import AgentExecutor, create_react_agent
from langchain.tools import tool
from langchain_openai import ChatOpenAI
from langchain import hub
# 1. 定义工具:天气查询
@tool
def get_weather(location: str) -> str:
"""查询指定城市的天气,输入为城市名称(如'北京')"""
# 示例:实际需替换为真实API调用(如OpenWeatherMap)
return f"{location}天气:晴,25℃"
# 2. 配置大模型和提示模板
model = ChatOpenAI(model="gpt-3.5-turbo")
prompt = hub.pull("hwchase17/react") # 使用ReAct提示模板
# 3. 创建Agent并执行
tools = [get_weather]
agent = create_react_agent(model, tools, prompt)
agent_executor = AgentExecutor(agent=agent, tools=tools, verbose=True)
# 4. 测试查询
response = agent_executor.invoke({"input": "上海现在天气如何?"})
print(response["output"])
代码解析
-
工具定义:通过
@tool装饰器声明工具函数,需明确输入参数和功能描述。 -
模型与提示模板:使用
ChatOpenAI调用大模型,react模板引导模型按“思考-行动”流程处理任务。 -
执行流程:Agent自动解析用户输入,调用天气工具并整合结果,最终生成自然语言回答。
四、进阶学习路径
-
工具扩展:集成更多API(如股票查询、新闻检索)。
-
记忆管理:添加向量数据库存储历史对话。
-
多Agent协作:使用AutoGen实现任务分派与协同。
-
部署优化:通过Gradio构建交互界面,或使用Docker容器化部署。
五、最后总结

基于LLM的Agent的概念框架由三个组件组成:大脑、感知和行动。作为控制器,大脑模块承担记忆、思考和决策等基本任务。感知模块感知和处理来自外部环境的多种模态信息,行动模块使用工具执行操作并影响周围环境。这里我们给出一个例子来说明工作流程:当人类询问是否会下雨时,感知模块将指令转换为LLMs可理解的表示。然后大脑模块根据当前天气和互联网上的天气预报开始推理。最后,行动模块做出响应并将雨伞交给人类。通过重复上述过程,agent可以不断获得反馈并与环境互动。
最后一句话总结,大家可以把agent理解为我们熟知的app即可!!!只不过agent是基于大语言模型的应用!!!
更多推荐


所有评论(0)