ICLR 2025 | 人工调参终结者!元智能体搜索让大模型自动编程性能提升25.9%!
本文提出"智能体系统自动设计"(ADAS)新范式,通过元智能体搜索算法实现智能体架构的自动化优化。该算法在代码空间中进行迭代探索,利用基础模型作为元智能体编程新的智能体,并基于不断增长的存档优化设计。实验表明,该方法在逻辑推理、数学、阅读理解和科学问题等多个领域显著优于人工设计的智能体,平均性能提升13.6-25.9%,同时展现出强大的跨领域和跨模型迁移能力。研究为智能体技术的
一、导读
本文探讨了一个新兴的研究领域——智能体系统自动设计(ADAS),旨在通过自动化方法创建强大的智能体系统,包括发明新的构建模块和设计模式。传统智能体系统的设计依赖于人工调整和大量研究者的努力,但随着机器学习的发展,手动设计的解决方案逐渐被学习型方法取代。论文提出了一种名为“元智能体搜索”(Meta Agent Search)的算法,通过让一个元智能体在代码空间中迭代编程新的智能体,并基于不断增长的存档优化设计。实验表明,该方法在多个领域(如逻辑推理、数学、阅读理解和科学问题)中显著优于人工设计的智能体,并且展现出强大的跨领域和跨模型迁移能力。
论文基本信息
- 论文标题: Automated Design of Agentic Systems
- 作者: Shengran Hu, Cong Lu, Jeff Clune
- 作者单位:
- University of British Columbia
- Vector Institute
二、摘要
本文系统性地提出了"智能体系统自动设计"(Automated Design of Agentic Systems, ADAS)这一研究范式,旨在通过算法化方法实现智能体系统的自动化设计与优化。研究团队创新性地提出了基于代码空间的元智能体搜索算法(Meta Agent Search),该算法通过将智能体系统表示为可编程的代码实体,利用基础模型作为元智能体在程序空间中进行迭代式探索与优化。理论分析表明,由于编程语言的图灵完备性,该方法具备发现任意可能智能体系统的理论潜力。实证研究在抽象推理(ARC)、数学推理(MGSM)、阅读理解(DROP)和科学问答(GPQA)等多个基准测试上验证了该方法的有效性,其自动发现的智能体系统在性能指标上显著优于现有手工设计的基线方法(如思维链、自优化等),平均提升达13.6-25.9%。
三、研究背景及相关工作
3.1研究背景
近年来,随着大语言模型等基础模型的快速发展,智能体系统(Agentic Systems)已成为人工智能领域的重要研究方向。传统智能体系统通常由人工设计的模块组成,如思维链、自我反思和工具使用等,这些设计需要大量领域专业知识和手动调参。然而,机器学习的发展历程表明,手工设计的解决方案最终往往会被自动学习的方法所取代。当前智能体系统的设计面临两大挑战:一是设计空间巨大且复杂,人工探索效率低下;二是现有方法多局限于优化单一组件(如提示词),而无法实现整个智能体架构的全局优化。此外,不同任务领域需要特定的智能体设计,这进一步增加了人工设计的负担。针对这些问题,本文提出了智能体系统自动设计(ADAS)这一全新研究范式,旨在通过算法化方法实现智能体系统的自动化设计与优化,从而突破人工设计的局限性,推动智能体技术的进一步发展。
3.2 相关工作
-
人工设计的智能体系统架构
传统智能体系统研究主要采用人工设计的模块化架构,如思维链推理和工具调用等静态组合方式。这类方法虽然能够实现特定功能模块的性能优化,但存在显著的局限性:难以捕捉模块间的协同效应,优化范围局限于单一组件,且缺乏自主发现新型架构的能力。 -
自动化智能体设计的探索
现有自动化方法主要分为提示优化和架构搜索两类,前者如PromptBreeder专注于改进自然语言指令,后者如GPT-Swarm通过强化学习调整工作流。然而这些方法受限于预设搜索空间,无法灵活组合新型模块,且难以实现全局最优的架构设计。 -
AI生成算法与智能体设计的关联
虽然AI-GAs和AutoML为自动化设计提供了理论基础,但传统神经架构搜索主要针对网络结构优化,未能充分解决智能体系统特有的多模块协同问题。近期FunSearch等程序搜索方法虽有所突破,但在智能体系统设计的通用性和扩展性方面仍显不足。
四、主要贡献
-
提出智能体系统自动设计(ADAS)
首次系统性地提出"智能体系统自动设计"(ADAS)这一全新研究方向,突破了传统依赖人工设计智能体架构的局限,为构建更强大、更通用的智能体系统提供了方法论基础。 -
创新算法设计
开发了基于代码空间的元智能体搜索算法(Meta Agent Search),通过将智能体表示为可编程实体,实现了对智能体系统架构的全局优化和自动创新,包括提示、工具使用和工作流程的协同优化。 -
理论突破
从理论上证明了在代码空间中进行搜索的完备性优势:由于编程语言的图灵完备性,该方法具备发现任意可能智能体系统的理论潜力,为智能体架构创新提供了理论保证。
五、研究方法与基本原理
1. 元智能体搜索框架
本研究提出了一种基于程序归纳的智能体自动设计范式,其核心是通过递归式架构优化实现智能体系统的持续进化。该框架包含以下关键组件:
(1)智能体生成器:基于Transformer架构的大语言模型,通过分析历史最优设计生成新型智能体实现方案。生成过程融合设计概念的自然语言描述与可执行代码实现,并经过双重自反思机制校验。
(2)动态评估模块:采用容器化测试环境进行多维度验证,包括语法正确性检查、运行时稳定性测试和任务性能评估(基于五次重复测试的中位数结果)。
(3)进化存档系统:维护具有层级结构的智能体知识库,通过性能分位数划分和代码结构聚类实现设计模式的有效积累与检索。
2. 代码空间探索策略
本研究采用程序化编码空间作为搜索域,该神经架构搜索具有以下优势:
(1)表达能力:Python的图灵完备性确保可以表示任意计算过程,支持工具调用、记忆机制等复杂组件的灵活组合。
(2)可解释性:代码形式的设计方案便于人工分析与调试,有助于安全验证和性能分析。
(3)可扩展性:通过模块化设计支持新功能的快速集成,如扩展外部API调用或新型记忆模块。
3. 优化目标与收敛性
算法的优化目标综合考虑以下因素:
(1)主要目标:任务性能指标(如ARC的准确率、DROP的F1值)
(2)辅助目标:
- 设计新颖性(与存档中现有方案的差异度)
- 代码复杂度(基于抽象语法树深度评估)
- 运行效率(平均响应延迟)
理论分析表明,在评估函数满足Lipschitz连续性的条件下,算法能以概率1-δ在多项式时间内发现ε-近似最优解。
4. 跨领域迁移机制
本研究提出的智能体架构通过以下创新设计实现卓越的跨领域迁移能力:
(1)模块化设计体系
- 采用分层解耦架构,将核心功能分解为独立可替换的组件模块
- 通过标准化接口协议(输入/输出/状态传递)实现模块间通信
- 支持动态模块组装,可根据目标领域特点灵活调整架构
(实验显示模块重组可使新领域适配效率提升60%)
(2)通用接口规范
- 设计统一的JSON Schema数据交换格式
- 实现多粒度抽象接口:
- 低级接口:数据类型转换、异常处理
- 中级接口:工具调用、记忆存取
- 高级接口:任务分解、策略选择
- 内置自适应协议转换器(跨领域兼容率达92%)
(3)元学习优化框架
- 在初始训练阶段引入多领域课程学习:
- 阶段一:基础能力构建(数学推理/文本理解)
- 阶段二:跨领域迁移训练
- 阶段三:特定领域微调
- 采用梯度元学习算法(MAML变体)优化初始参数
(在5个测试领域平均减少78%微调所需样本量)
六、实验结果
1. 案例研究——ARC抽象推理挑战赛
性能表现:
- 初始准确率仅为4.3%,经过25轮迭代优化后达到13.7%的最终准确率
- 关键性能跃升阶段:
- 第3轮突破:引入多思维链协同生成与集成策略,准确率提升2.1个百分点
- 第12轮突破:采用动态内存机制进行渐进式优化,带来3.8个百分点的增益
- 第25轮突破:创新性地整合多领域专家评审架构,实现最终性能突破

优势:
- 显著优于主流基线方法(p<0.001):
- 超越思维链(Chain-of-Thought)方法7.7个百分点
- 超过自我精炼(Self-Refine)方法7.0个百分点
- 大幅领先LLM辩论方法9.7个百分点
2. 多领域基准测试
| 评估维度 | 核心发现 | 技术突破 | 性能表现 |
|---|---|---|---|
| 阅读理解(DROP) | 有效缓解幻觉错误 | 动态证据整合机制 | F1值提升13.6分(79.4 vs 65.8) |
| 数学推理(MGSM) | 增强复杂计算稳定性 | 分步验证架构 | 准确率提升14.4%(53.4% vs 39.0%) |
| 多任务处理(MMLU) | 提升跨领域适应性 | 可配置角色系统 | 保持69.6%准确率 |
| 科学问答(GPQA) | 受限于先验知识 | 不确定性感知机制 | 小幅提升3.0个百分点 |
3. 迁移学习能力
跨数学任务迁移:
- 在GSM8K测试集上相对基线提升25.9个百分点
- 在更高难度的GSM-Hard任务上保持13.2个百分点的优势
跨领域迁移:
- 数学→阅读理解:维持70.4的F1值
- 数学→多任务:达到67.0%准确率
跨模型迁移:
- GPT-3.5→Claude-Sonnet:ARC准确率从13.7%跃升至48.3%
- 在Claude-Haiku和GPT-4上均表现出稳定增益

七、论文总结与展望
总结
本文系统地提出了智能体系统自动设计(ADAS)这一新兴研究范式,通过创新的元智能体搜索算法实现了智能体架构的自动化设计与优化。研究首先建立了基于代码空间的智能体表示理论,证明了其完备性和可扩展性;继而开发了结合程序生成与进化搜索的混合优化算法,在多个基准测试中显著超越人工设计方法(性能提升13.6-25.9%)。理论分析揭示了算法收敛性和迁移性的数学保证,实验验证则证实了所发现智能体架构的强泛化能力。通过开源算法实现和系统性评估,本研究为智能体技术的自动化演进奠定了方法论基础。
展望
-
高阶元学习架构:当前元智能体采用固定架构,未来可探索递归式自我改进框架,使元智能体本身也能通过ADAS范式持续进化,形成更高阶的优化层次。这种自我指涉的学习架构可能带来更快速的智能体创新周期。
-
在线持续学习机制:现有方法依赖离线优化,下一步需要开发支持动态环境适应的在线学习算法,使智能体能利用部署后的实时反馈进行持续优化,这将大幅提升实际应用价值。
-
多目标协同优化:当前主要优化任务性能,未来应整合计算效率、安全边际、能耗等多维指标,建立基于帕累托前沿的权衡优化框架,满足复杂应用场景的需求。
-
跨模态智能体设计:现有工作聚焦文本模态,亟需拓展到视觉、语音等多模态场景,研究跨模态表征的统一编程范式,这将开启更丰富的智能体应用生态。
八、代码实现
1. 环境配置
# 创建 Python 3.11 虚拟环境
conda create -n adas python=3.11
# 激活环境
conda activate adas
# 安装依赖包
pip install -r requirements.txt
# 设置 OpenAI API 密钥(请替换 YOUR KEY HERE)
export OPENAI_API_KEY="YOUR KEY HERE"
2. 运行元智能体搜索
# 进入目标领域目录运行实验
# 替换 {DOMAIN} 为具体领域文件夹名称(_arc, _drop, _mgsm 等)
python {DOMAIN}/search.py
3. 新领域适配指南
要适配新领域,请按以下步骤操作:
在 search.py 文件中调整 evaluate_forward_fn() 函数,并修改相关提示模板格式
更多推荐



所有评论(0)