最近在基于大型语言模型(LLM)的多智能体系统(MAS)方面的发展展示了其在处理复杂决策任务方面的显著潜力。然而,现有的框架不可避免地依赖于串行执行范式,即智能体必须完成顺序的LLM规划后才能采取行动。这一基本限制严重影响了实时响应和适应能力,而在动态环境中这些能力至关重要。本文提出了一种新的并行化规划-行动框架,用于基于LLM的MAS,该框架具有可中断执行的双线程架构,支持并发规划和行动。具体而言,我们的框架包含两个核心线程:

(1) 由集中式内存系统驱动的规划线程,保持环境状态同步和智能体通信以支持动态决策;

(2) 配备全面技能库的行动线程,通过递归分解实现自动化任务执行。

在具有挑战性的《我的世界》实验中证明了所提框架的有效性。

1 引言

多智能体系统(MAS)已成为解决复杂决策问题的一种成熟范式,早期的努力主要依赖强化学习使多个智能体能够在动态环境中协作或竞争。尽管取得了令人鼓舞的结果,但这些MAS框架在处理需要高级通信、推理和适应能力的复杂现实场景时面临局限性。大型语言模型(LLMs)的快速发展通过添加自然语言理解和生成能力,革新了MAS,使智能体能够进行更复杂的协作。LLMs显著增强了MAS的灵活性和通用性,为实际应用中的复杂任务和动态交互打开了大门。

最近的研究展示了基于LLM的MAS在各个领域的潜力。MetaGPT引入了一个创新的元编程框架,以增强任务分解和智能体协作;Agent-Verse通过协调专家智能体提高了协作性能;VillagerAgent使用基于DAG的任务分解来解决复杂环境中的任务依赖。尽管有这些进展,大多数现有框架仍然依赖于串行执行,其中每个智能体的规划和行动是按顺序发生的。这种串行性质在处理动态信息时造成了重大瓶颈,尤其在《我的世界》等动态环境中尤为明显,因为即使没有智能体的干预,环境也在不断变化。虽然Voyager开创了基于LLM的智能体在《我的世界》中的应用,但其方法在LLM交互期间暂停游戏服务器,实际上将动态环境静态化,从而无法完全满足此类设置所需的实时响应需求。随后关于《我的世界》智能体的研究也继承了相同的局限性。

我们的分析揭示了当前基于LLM的MAS在动态环境中面临的三个关键挑战:

https://github.com/zju-vipa/Odyssey/tree/master/Multi-Agent

图1:所提出的多智能体系统的概述

首先是不灵活的动作调度,许多现有的智能体框架依赖于串行执行,要求智能体等待语言模型响应后才能继续进一步行动。这种刚性使得处理意外的环境变化变得复杂;第二是有限的重规划能力,阻碍了智能体的表现,因为它们通常会执行动作直到完成而不会中断。这种缺乏适应性防止智能体有效重新考虑或调整计划以应对紧急和不可预见的事件,削弱了它们的整体有效性。最后是内存共享延迟问题,因为在许多多智能体系统中,内存更新仅在动作完全执行后才会发生。这导致了观测数据共享的延迟,使智能体基于过时的信息操作,进而限制了团队的协调和效率。

本文提出了一种并行化规划-行动框架,引入了具有可中断执行的双线程架构,以提高动态环境中基于LLM的MAS的效率,如图1.所示。我们的架构将LLM推理与动作执行解耦,实现了并发规划和行动。此外,中断机制使智能体能够根据环境变化实时调整其动作,

从而提高其适应能力。具体而言,我们的框架包括两个核心线程:(1) 使用集中式内存系统的规划线程,以支持智能体之间高效及时的信息共享,最小化内存共享延迟,并确保智能体始终使用最新的信息进行更好的协调和效率。(2) 使用全面技能库的行动线程,通过递归任务分解机制实现高效的任务执行。我们的核心贡献总结如下:

  • 我们提出了一个并行化规划-行动框架,将规划和行动解耦为具有可中断执行的并行双线程,以提高基于LLM的MAS的效率。
  • 我们开发了一个集中式内存系统以支持规划线程,确保智能体的决策始终基于最新的环境变化和互动。
  • 我们设计了一个全面的技能库以增强行动线程,通过递归任务分解实现高效的任务执行。
  • 在《我的世界》上的实验结果表明,从串行思考到并行交互的范式转变带来了效率和协调方面的显著改进。
    2 基于LLM的多智能体框架
    我们提出了一种基于LLM的新型并行化规划-行动框架,旨在使智能体在复杂动态环境中实现协作和决策。我们的框架引入了三项关键创新:(1) 具有可中断执行机制的双线程架构,实现并发规划和行动;(2) 实时更新的集中式内存系统支持规划线程,确保智能体的决策基于最新的环境变化和团队互动;(3) 《我的世界》全面技能库支持行动线程,通过提出递归任务分解机制实现任务自动执行。虽然技能库代表了一项工程贡献,但需要注意的是,我们的框架是通用的,可以轻松扩展到其他领域。这种灵活性突显了我们方法的广泛适用性,而《我的世界》提供了一个丰富且易于访问的测试平台,用于评估其在动态环境中的性能。
    2.1 并行化规划-行动框架
    受人类同时思考和行动能力的启发,我们的框架采用了分离规划(由LLM和集中式内存系统支持)和行动(由全面技能库执行)的双线程架构,如图2所示。设A = {a1, a2, …, an}表示智能体集合。我们的框架运行如下:
  • 规划线程:在每个时间步t,规划线程根据系统提示S、智能体当前观察Ot i 、最新团队聊天记录C t 和当前动作At i 生成下一个动作Ai t+1 :
    计划的动作A t+1 i 然后被写入动作缓冲区,作为规划线程和行动线程之间的通信通道。这个动作缓冲区实现为单槽队列,允许规划线程写入和行动线程读取。如果缓冲区已被占用,之前的动作将被丢弃以腾出空间给新动作。这种机制确保规划线程总是将最及时的动作(基于最新观察和智能体状态)放入缓冲区,而行动线程总是检索最新动作,永不执行过时的计划。
  • 行动线程:行动线程从动作缓冲区检索动作,并根据以下规则执行:
    这里,si 表示智能体ai 的技能执行,At i 是当前正在执行的动作,A t+1 i 是缓冲区中的新动作,p 是动作的优先级。如果触发中断——即当LLM确定新动作的优先级高于当前动作时——规划线程向行动线程发送中断信号。行动线程立即退出并重启新动作。如果没有触发中断,行动线程将在从缓冲区中检索并执行下一个动作A t+1 i 之前完成当前动作At i 。
    延迟分析。并行化架构通过并发执行规划和行动线程直观地减少了系统延迟。设Tplan表示LLM推理延迟,Tact表示技能执行时间。对于一个需要n个原子动作且没有任何中断的任务:
    • 串行框架:
    • 并行化框架:
    延迟减少∆T可以表示为:
    此分析突显了我们框架的两个关键优势:1) 初始规划延迟T (1) plan 被后续动作有效地分摊,2) 规划和行动阶段的重叠成功隐藏了Tplan 当Tact > Tplan(我们在第2.3节中提出的全面技能库确保了这一条件得到良好维护)。我们在第3.4节中的实验结果展示了并行化框架的整体效率优势。
    通过将规划和行动解耦为并行线程,我们的框架在效率和灵活性之间取得了平衡,使智能体能够对不可预测的环境做出动态响应,增强适应性和性能。
    2.2 集中式内存系统
    为了促进有效的协调,我们实施了一个集中式内存系统M,用于存储和管理团队级别的信息。内存每时间步t更新如下:
    其中Ot+1 表示时间t + 1时多智能体系统的更新观测值,覆盖了之前的观测值Ot ,C t 表示时间t时系统的聊天消息,At 表示时间t时系统的动作历史。这个统一的仓库使智能体在任务执行过程中访问和利用相关信息,确保高效的团队协调:
  • 观测记录:每个智能体的观测值在集中式内存中连续更新,反映最新的智能体状态和环境状态。这些观测值与相应的智能体关联,使团队能够保持对环境的全面和最新的了解。
  • 聊天日志:所有团队聊天消息都存储在集中式内存中,长期保留以支持历史分析和决策制定。在规划期间,智能体可以检索最近的聊天消息以将其团队见解纳入策略。这确保了决策基于团队的集体知识。
  • 动作历史:集中式内存还记录了每个智能体采取的动作,提供了任务执行的详细历史。这些日志有助于行为优化和性能分析。
    我们实现了两种类型的多智能体通信(被动和主动),确保集中式内存始终保持为团队协调的动态资源:
  • 被动通信:在规划线程中,每次规划周期后,LLM根据智能体的最新观测值生成聊天消息,然后发送到集中式内存的聊天日志。这确保了被动通信(反映更新后的观测值)可以与动作执行并行进行。当智能体执行动作时,其观测值不断更新并与团队共享,使团队能够基于最新的环境信息实现实时协调。
  • 主动通信:在行动线程中,智能体可以选择主动发送聊天消息以执行聊天动作。此动作允许智能体与其队友分享任何信息,实时更新聊天日志。这种形式的通信确保智能体可以在执行动作期间动态响应并分享关键信息,促进智能体之间的高效和最新的信息交换。
    2.3 全面技能库
    为了实现智能体与《我的世界》环境之间的无缝交互,我们开发了一个全面的技能库,封装了游戏中的一系列动作。该库提供了诸如资源收集、战斗、探索和通信等任务的高级API。有关更多技术细节,请参阅附录B.
    全面技能库的一个关键特征是递归任务分解机制的实现,该机制自动化了前置任务的完成,例如开采原材料和制作必要的工具。这种自动化确保智能体能够以最少的手动干预执行复杂的资源收集任务,实现超过790种物品的自动化收集,超越了所有现有方法[Wang et al., 2023; Zhu et al., 2023; Zhao et al., 2024; Liu et al., 2024]。
    核心递归过程可以形式化建模为加权有向无环图(DAG)G = (V, E, ϕ),其中:
  • 顶点集V = {vi}表示原子任务:
    其中ti ∈ T为目标物品类型(《我的世界》中所有可收集的物品),ci ∈ N + 表示


图2:所提出的并行化规划-行动架构概述
所需数量,fi 指定获取物品的操作类型。

  • 边集E ⊆ V × V编码前置任务依赖关系:
    其中pre(vi)给出生产ti 的前置任务。
  • 权重函数ϕ : E → Q+ 定义材料转换率:
    其中rij 是每次操作所需tj 的数量,nout 是每次操作的输出数量。
    递归解析过程遵循:
    其中v (k) j 表示需要k个单位tj 的任务,基本情况Ψ(vi) = ∅适用于I(ti) ≥ ci ,其中I表示当前库存状态,这意味着任务已完成。
    3 实验
    3.1 实验设置
    我们希望通过进一步的实验回答以下问题:(1) 我们的全面技能库能否使智能体在《我的世界》开放世界环境中高效完成基本任务?(2) 我们提出的多智能体框架在高度复杂和具有挑战性的任务中表现如何?(3) 我们提出的并行化规划-行动框架是否能更好地支持多智能体协作、竞争和人机交互?
    所有实验都在《我的世界》Java版1.19.4游戏环境中进行,使用Qwen-Plus模型(Qwen et al., 2024),而多模态实验则使用Qwen-VL-Plus模型(Bai et al., 2023)。游戏服务器在与LLM交互期间持续运行而不暂停,因此所有智能体都需要实时运行。所有评估指标都是在此类交互期间动态捕获的。“时间”等指标表示多智能体系统完成指定任务所需的总时间,包括与LLM通信的时间。
    3.2 基准任务场景
    为了评估我们的多智能体框架在《我的世界》中的泛化能力,我们设计了三个不同的任务场景:资源收集、BOSS战和对抗玩家对战(PvP)。这些场景旨在涵盖一系列应用场景,展示我们多智能体框架在不同背景下的多功能性。
  • 资源收集:此任务涉及在《我的世界》世界中收集资源,评估全面技能库的效率和多智能体系统在执行重复和结构化任务时的协调能力。
  • BOSS战:此任务要求多智能体系统在一个预定义的、高度复杂的战斗环境中击败强大的BOSS级敌人,评估先进的战略规划、实时决策、智能体之间的有效协作以及系统处理动态和挑战性环境的能力。
  • 对抗PvP:此任务专注于基于团队的对抗性竞争,其中两支智能体队伍在战斗场景中相互竞争。主要目标是评估智能体的战略制定、适应能力和超越对手的能力。 #### 3.3 主要结果
    3.3.1 资源收集任务
    我们首先通过评估单个智能体在《我的世界》中执行基本资源收集任务的性能来验证我们技能库的递归任务分解机制的有效性。此次初步评估旨在验证全面技能库在自动化复杂工作流方面的能力,从而验证其在处理基础《我的世界》任务时的效率和可靠性。如表1所示,当递归任务分解机制被禁用时,系统只能完成步骤较少的短期任务,效率降低。相比之下,使用我们全面的技能库可以高效完成所有任务。
    表1:有无递归任务分解机制(RTDM)下完成时间和成功率(SR)的比较。所有结果均显示为10次试验的平均值和标准差。
任务 with RTDM w/o RTDM
时间(min) SR 时间(min) SR
0.3±0.2 100% 2.8±2.5 100%
0.6±0.3 100% 4.6±2.5 80%
1.4±0.5 100% N/A 0%
4.7±1.3 100% N/A 0%
6.2±1.6 100% N/A 0%

我们随后评估了我们框架在八个更为复杂的资源收集任务上的性能。表2比较了我们多智能体系统(3个智能体)和单智能体基线的完成时间,展示了通过协调获得的效率提升。
实验结果表明,在多智能体框架中使用我们的《我的世界》全面技能库也可以高效完成各种资源收集任务。如比较所示,系统
表2:多智能体(MA)和单智能体(SA)系统间资源收集任务完成时间(分钟)的比较。所有结果均显示为10次试验的平均值和标准差。详细任务定义请参阅附录C.

任务 MA Time SA Time
铁制工具套装 ±7.82.1 ±8.53.7
钻石盔甲 13.7±4.1 28.3±6.1
红石设备 11.0±6.0 13.1±3.3
导航工具包 25.3±12.2 39.4±11.7
运输系统 22.0±10.1 37.8±12.6
食物补给 ±6.63.9 ±8.02.0
建筑材料 ±15.82.8 ±22.67.4
存储系统 10.0±8.9 16.7±7.8

与单智能体基线相比,三个智能体显著减少了大部分任务的完成时间,验证了我们方法的有效性,展示了多智能体协作的效率优势。然而,观察到的非线性扩展(多智能体时间 > 单智能体时间/3)并不总是达到理想的线性加速,这是由于两个固有的约束:

  • 资源依赖链:工艺流程中的顺序前提(例如,铁制工具是钻石采矿的前提)
  • 空间争用:接近区域内的资源访问重叠(例如,多个智能体争夺同一矿石簇中的物品)
    3.3.2 BOSS战任务
    我们在三种具有不同智能体团队规模的具有挑战性的战斗场景中进行了全面评估。实验在三个预定义场景中进行,每个场景都有一个来自《我的世界》主要维度的极其强大且具有代表性的BOSS:远古守护者(主世界)、凋零(地狱)和末影龙(末地)。


图3:并行化与串行化框架在PVP任务中的比较。所有结果均显示为10次试验的平均值和标准差。
智能体的初始库存在这所有场景中保持一致。他们的装备经过验证可以在资源收集任务中短时间内收集,其他消耗品也可以通过我们的技能库高效收集。有关更多详细信息,请参阅附录C.
表3总结了多智能体系统在BOSS战任务中的表现,表明我们的框架在不同智能体团队规模下都能以高成功率完成所有具有挑战性的BOSS战任务。
3.3.3 对抗PVP任务
在对抗玩家对战(PVP)任务中,我们在不同团队规模下直接比较了并行化和串行化框架。如图3所示,这种设置清楚地展示了这两种方法在竞争条件下的差异。
如图3所示,并行化框架在动态对抗场景中表现出显著优势。我们的分析表明,这种优势主要归功于我们的中断机制,使智能体能够动态调整策略并迅速响应环境变化(例如,无缝切换攻击目标、优先恢复健康等)。
3.4 消融研究
为了验证我们方法的必要性,我们在BOSS战任务中通过禁用框架中的不同组件进行消融研究:

  • 无并行化规划-行动框架:用传统的串行执行(LLM调用→动作执行)替换我们的并发架构,一旦开始执行就禁用动作中断功能。


图4:在三个场景中进行的BOSS战任务消融研究:远古守护者(EG)、凋零(Wi)和末影龙(ED),其中效率定义为完成时间(分钟)的倒数。

  • 无集中式内存系统:禁用实时团队观察轮询、团队聊天日志、动作历史和全局进度信息,从而使智能体只能依赖其个人观察。
  • 多模态观察:用视觉输入取代基于文本的观察,使用Mineflayer的prismarine-viewer捕捉第一人称截图,并由视觉语言模型(VLM)处理为观察。
    这些消融配置系统地评估了每个架构组件对整体系统性能的贡献,提供了它们在复杂多智能体协调任务中相对重要性的见解。
    图4中的实验结果显示,并行化规划-行动框架和集中式内存系统在维持高性能方面起着关键作用。当我们用多模态观察系统取代基于文本的观察空间时,我们观察到,尽管引入视觉语言模型(VLM)增加了响应延迟并降低了观察准确性,但智能体仍表现得相当不错。这表明我们的框架在处理不同模态时依然稳健。
任务场景 # Agents Time(min) Health Ratio Progress SR
远古守护者(主世界) 3 ±2.42.1 ±49.832.8% ±91.420.1% 83.3%
5 ±1.20.8 ±84.47.9% ±100.00.0% 100.0%
10 ±1.20.3 ±86.98.4% ±100.00.0% 100.0%
凋零(地狱) 3 ±1.80.8 ±18.623.4% ±71.835.9% 41.7%
5 ±1.50.5 ±53.432.7% ±88.120.6% 75.0%
10 1.4±0.3 69.5±19.0% 100.0±0.0% 100.0%
末影龙(末地) 3 N/A ±0.00.0% ±20.418.5% 0.0%
5 6.5±2.0 18.1±23.2% 75.4±28.9% 41.7%
10 5.2±1.5 43.9±24.4% 98.2±5.9% 91.7%

表3:三个任务场景中的BOSS战表现。所有结果均显示为12次试验的平均值和标准差。有关详细评估指标定义,请参阅附录C.
3.5 人机交互
我们的框架还支持灵活的人机交互,允许人类玩家要么积极参与任务执行并与智能体合作,促进游戏环境中的动态协作,要么担任指导角色,通过为智能体提供任务分配、协调和战略决策的指令。附录C.4.中展示了更多实验证例,证明了人机交互的有效性。
4 相关工作
基于LLM的《我的世界》智能体。基于LLM的AI智能体在《我的世界》中的发展经历了几个关键方法:Voyager(Wang et al., 2023)建立了第一个基于LLM的智能体,使用GPT-4(Achiam et al., 2023)自动发现技能。随后的研究通过专门的记忆机制(Park et al., 2024; Li et al., 2024a),专门的LLM微调(Feng et al., 2023; Zhao et al., 2024; Liu et al., 2024),任务分解和因果图学习(Yuan et al., 2023; Zhu et al., 2023; Yu and Lu, 2024),以及与强化学习结合(Li et al., 2024b, 2023)提升了智能体。此外,还探索了多模态信息感知和处理(Zheng et al., 2023; Cai et al., 2024),以及其他新颖技术(Wang et al., 2024; Zhou et al., 2024)。随着基准测试的发展,一般能力评估有了MineDojo(Fan et al., 2022)和MCU(Lin et al., 2023),而特定智能体能力则通过其他基准测试进行了评估(Qin et al., 2024; Dong et al., 2024)。
基于LLM的多智能体系统。最近的
综述(Mou et al., 2024; Guo et al., 2024)提供了基于LLM的多智能体系统的最新进展的全面概述。在此基础上,最近的研究集中在几个核心领域:基础设施框架,用于高效的智能体协调(Gong et al., 2024; Chen et al., 2024b; Zhang et al., 2024b; Hong et al., 2023; Zhang et al., 2024a),引入了新颖的任务管理和团队协作范式;基准开发,以评估多智能体在动态环境中的性能(Chen et al., 2024a; Dong et al., 2024),创建了强大的测试环境以评估基于LLM的智能体的泛化和效率;大规模社会模拟(AL et al., 2024; Park et al., 2023; Yang et al., 2024),探讨了多智能体系统如何建模复杂的社会行为;以及特定领域的应用(Wu et al., 2024; D’Arcy et al., 2024; Chen et al., 2024c),展示了基于LLM的智能体在特定情景模拟中的有效性。
5 结论
我们提出了一种新颖的并行化规划-行动多智能体框架,显著增强了基于LLM的MAS在动态环境中的响应能力和适应能力。我们的框架采用具有可中断执行机制的双线程架构,实现了实时交互和持续适应,克服了传统串行执行范式的局限性。全面的技能库和自动任务分解机制进一步提高了效率和协调性,作为一项工程贡献。通过广泛的实验,我们的框架在协作和对抗场景中均表现出色,并实现了更即时的人机交互,突显了其更广泛的应用潜力。
6 局限性
尽管展示了显著的优势,我们的框架存在三个主要局限性。首先,连续的LLM请求设计导致更高的计算成本,可能限制在资源受限环境中的可扩展性。其次,LLM幻觉偶尔会导致不合理的动作中断,影响智能体行为的可靠性。第三,尽管我们的框架适应多模态观察,但当前的融合方法仅依赖于视觉语言模型(VLM),可能无法充分利用多模态信息的互补性,限制在复杂场景中的性能。未来的工作旨在通过优化LLM请求机制来提高计算效率,通过增强验证策略减轻幻觉效应,并改进多模态融合技术以更好地利用多样化的感官输入。
参考文献

  • Achiam, J., Adler, S., Agarwal, S., Ahmad, L., Akkaya, I., Aleman, F. L., Almeida, D., Altenschmidt, J., Altman, S., Anadkat, S., et al. (2023). GPT-4 技术报告. arXiv 预印本 arXiv:2303.08774.
  • AL, A., Ahn, A., Becker, N., Carroll, S., Christie, N., Cortes, M., Demirci, A., Du, M., Li, F., Luo, S., Wang, P. Y., Willows, M., Yang, F., & Yang, G. R. (2024). Project SID:迈向AI文明的多智能体模拟. arXiv 预印本 arXiv:2411.00114.
  • Bai, J., Bai, S., Yang, S., Wang, S., Tan, S., Wang, P., Lin, J., Zhou, C., & Zhou, J. (2023). Qwen-VL:用于理解、定位、文本阅读等的多功能视觉语言模型. arXiv 预印本 arXiv:2308.12966.
  • Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Agarwal, S., Herbert-Voss, A., Krueger, G., Henighan, T., Child, R., Ramesh, A., Ziegler, D. M., Wu, J., Winter, C., Hesse, C., Chen, M., Sigler, E., Litwin, M., Gray, S., Chess, B., Clark, J., Berner, C., McCandlish, S., Radford, A., Sutskever, I., & Amodei, D. (2020). 语言模型是少样本学习者. arXiv 预印本 arXiv:2005.14165.
  • Busoniu, L., Babuska, R., & De Schutter, B. (2008). 多智能体强化学习的全面综述. IEEE 系统、人与控制论杂志C部分(应用与评论).
  • Cai, S., Wang, Z., Lian, K., Mu, Z., Ma, X., Liu, A., & Liang, Y. (2024). Rocket-1:通过视觉-时间上下文提示掌握开放世界交互. arXiv 预印本 arXiv:2410.17856.
  • Chen, J., Hu, X., Liu, S., Huang, S., Tu, W.-W., He, Z., & Wen, L. (2024a). LLMArena:评估大型语言模型在动态多智能体环境中的能力. 在 计算语言学协会年度会议论文集.
  • Chen, W., Su, Y., Zuo, J., Yang, C., Yuan, C., Chan, C.-M., Yu, H., Lu, Y.-X., Hung, Y.-H., Qian, C., Qin, Y., Cong, X., Xie, R., Liu, Z., Sun, M., & Zhou, J. (2024b). AgentVerse:促进多智能体协作并探索突发行为. 在 国际学习表示会议.
  • Chen, Y., Arkin, J., Zhang, Y., Roy, N., & Fan, C. (2024c). 使用大型语言模型实现可扩展的多机器人协作:集中式或分布式系统? 在 IEEE 国际机器人与自动化会议论文集.
  • D’Arcy, M., Hope, T., Birnbaum, L., & Downey, D. (2024). MARG:科学论文的多智能体评论生成. arXiv 预印本 arXiv:2401.04259.
  • DeepSeek-AI. (2024). DeepSeek-v3 技术报告. CoRR.
  • DeepSeek-AI. (2025). DeepSeek-r1:通过强化学习激励LLM推理能力. arXiv 预印本 arXiv:2501.12948.
  • Dong, Y., Zhu, X., Pan, Z., Zhu, L., & Yang, Y. (2024). VillagerAgent:基于图的多智能体框架,用于协调《我的世界》中的复杂任务依赖. 在 计算语言学协会年度会议论文集.
  • Dubey, A., Jauhri, A., et al. (2024). LLaMA 3 模型群. arXiv 预印本 arXiv:2407.21783.
  • Fan, L., Wang, G., Jiang, Y., Mandlekar, A., Yang, Y., Zhu, H., Tang, A., Huang, D.-A., Zhu, Y., & Anandkumar, A. (2022). MineDojo:使用互联网规模知识构建开放式的具身智能体. arXiv 预印本 arXiv:2206.08853.
  • Feng, Y., Wang, Y., Liu, J., Zheng, S., & Lu, Z. (2023). LLaMA Rider:激发大型语言模型探索开放世界. arXiv 预印本 arXiv:2310.08922.
  • Gong, R., Huang, Q., Ma, X., Noda, Y., Durante, Z., Zheng, Z., Terzopoulos, D., Fei-Fei, L., Gao, J., & Vo, H. (2024). MindAgent:涌现的游戏互动. 在 北美计算语言学协会会议论文集.
  • Guo, T., Chen, X., Wang, Y., Chang, R., Pei, S., Chawla, N. V., Wiest, O., & Zhang, X. (2024). 基于大型语言模型的多智能体:进展与挑战综述. arXiv 预印本 arXiv:2402.01680.
  • Hong, S., Zhuge, M., Chen, J., Zheng, X., Cheng, Y., Zhang, C., Wang, J., Wang, Z., Yau, S. K. S., Lin, Z. H., Zhou, L., Ran, C., Xiao, L., Wu, C., & Schmidhuber, J. (2023). MetaGPT:用于多智能体协作框架的元编程. 在 国际学习表示会议.
  • Li, H., Yang, X., Wang, Z., Zhu, X., Zhou, J., Qiao, Y., Wang, X., Li, H., Lu, L., & Dai, J. (2023). Auto MCreward:使用大型语言模型为《我的世界》设计自动密集奖励. arXiv 预印本 arXiv:2312.09238.
  • Li, Z., Xie, Y., Shao, R., Chen, G., Jiang, D., & Nie, L. (2024a). Optimus-1:混合多模态内存增强智能体在长期任务中表现出色. 在 神经信息处理系统进展.
  • Li, Z., Xu, X., Xu, Z., Lim, S., & Zhao, H. (2024b). LARM:用于长期具身智能的大型自回归模型. arXiv 预印本 arXiv:2405.17424.
  • Lin, H., Wang, Z., Ma, J., & Liang, Y. (2023). MCU:《我的世界》中开放式代理评估的任务中心框架. arXiv 预印本 arXiv:2310.08367.
  • Liu, S., Li, Y., Zhang, K., Cui, Z., Fang, W., Zheng, Y., Zheng, T., & Song, M. (2024). Odyssey:赋予《我的世界》智能体开放世界的技能. arXiv 预印本 arXiv:2407.15325.
  • Lowe, R., Wu, Y., Tamar, A., Harb, J., Abbeel, P., & Mordatch, I. (2017). 混合合作-竞争环境中的多智能体演员-评论家. arXiv 预印本 arXiv:1706.02275.
  • Mou, X., Ding, X., He, Q., Wang, L., Liang, J., Zhang, X., Sun, L., Lin, J., Zhou, J., Huang, X., & Wei, Z. (2024). 从个体到社会:由基于大型语言模型的智能体驱动的社会模拟综述. arXiv 预印本 arXiv:2412.03563.
  • Park, J. S., O’Brien, J., Cai, C. J., Morris, M. R., Liang, P., & Bernstein, M. S. (2023). 生成性智能体:人类行为的交互模拟. 在 第36届ACM用户界面软件和技术研讨会论文集.
  • Park, J., Cho, J., & Ahn, S. (2024). Mr.STEVE:具有“何时何地”记忆的指令跟随智能体. arXiv 预印本 arXiv:2411.06736.
  • PrismarineJS. (2023). Mineflayer:使用强大的、稳定的和高级别的JavaScript API创建《我的世界》机器人. https://github.com/PrismarineJS/mineflayer.
  • Qin, Y., Zhou, E., Liu, Q., Yin, Z., Sheng, L., Zhang, R., Qiao, Y., & Shao, J. (2024). MP5:《我的世界》中通过主动感知实现的多模态开放式具身系统. 在 IEEE/CVF计算机视觉和模式识别会议论文集.
  • Qwen, Yang, A., Yang, B., Zhang, B., Hui, B., Zheng, B., Yu, B., Li, C., Liu, D., Huang, F., Wei, H., Lin, H., Yang, J., Tu, J., Zhang, J., Yang, J., Yang, J., Zhou, J., Lin, J., Dang, K., Lu, K., Bao, K., Yu, L., Li, M., Xue, M., Zhang, P., Zhu, Q., Men, R., Lin, R., Li, T., Tang, T., Xia, T., Ren, X., Ren, X., Fan, Y., Su, Y., Zhang, Y., Wan, Y., Liu, Y., Cui, Z., Zhang, Z., & Qiu, Z. (2024). Qwen2.5 技术报告. arXiv 预印本 arXiv:2412.15115.
  • Wang, G., Xie, Y., Jiang, Y., Mandlekar, A., Xiao, C., Zhu, Y., Fan, L., & Anandkumar, A. (2023). Voyager:一个使用大型语言模型的开放式具身智能体. arXiv 预印本 arXiv:2305.16291.
  • Wang, Z., Cai, S., Mu, Z., Lin, H., Zhang, C., Liu, X., Li, Q., Liu, A., Ma, X., & Liang, Y. (2024). OmniJarvis:统一的视觉-语言-动作标记化使开放式指令跟随智能体成为可能. 在 神经信息处理系统进展.
  • Wu, D., Shi, H., Sun, Z., & Liu, B. (2024). 解码数字侦探:理解多智能体神秘游戏中的LLM行为和能力. 在 计算语言学协会会议论文集.
  • Yang, Y., & Wang, J. (2021). 多智能体强化学习的博弈理论视角概述. arXiv 预印本 arXiv:2011.00583.
  • Yang, Z., Zhang, Z., Zheng, Z., Jiang, Y., Gan, Z., Wang, Z., Ling, Z., Chen, J., Ma, M., Dong, B., Gupta, P., Hu, S., Yin, Z., Li, G., Jia, X., Lu, H., Lu, C., Lu, C., Ouyang, W., Qiao, Y., Torr, P., & Shao, J. (2024). Oasis:百万智能体开放代理社会互动模拟. arXiv 预印本 arXiv:2411.11581.
  • Yu, S., & Lu, C. (2024). Adam:开放世界环境中的具身因果智能体. arXiv 预印本 arXiv:2410.22194.
  • Yuan, H., Zhang, C., Wang, H., Xie, F., Cai, P., Dong, H., & Lu, Z. (2023). 开放世界长期任务的技能强化学习和规划. arXiv 预印本 arXiv:2303.16563.
  • Zhang, C., Yang, K., Hu, S., Wang, Z., Li, G., Sun, Y., Zhang, C., Zhang, Z., Liu, A., Zhu, S., Chang, X., Zhang, J., Yin, F., Liang, Y., & Yang, Y. (2024a). ProAgent:使用大型语言模型构建主动协作智能体. 在 AAAI人工智能会议论文集.
  • Zhang, H., Du, W., Shan, J., Zhou, Q., Du, Y., Tenenbaum, J. B., Shu, T., & Gan, C. (2024b). 使用大型语言模型模块化构建协作具身智能体. 在 国际学习表示会议.
  • Zhao, Z., Chai, W., Wang, X., Li, B., Hao, S., Cao, S., Ye, T., & Wang, G. (2024). 见和思考:虚拟环境中的具身智能体. 在 欧洲计算机视觉会议论文集.
  • Zheng, S., Liu, J., Feng, Y., & Lu, Z. (2023). Steve-Eye:为基于LLM的具身智能体配备开放世界的视觉感知. 在 国际学习表示会议.
  • Zhou, E., Qin, Y., Yin, Z., Huang, Y., Zhang, R., Sheng, L., Qiao, Y., & Shao, J. (2024). MineDreamer:通过想象链学习以控制模拟世界的指令遵循. arXiv 预印本 arXiv:2403.12037.
  • Zhu, X., Chen, Y., Tian, H., Tao, C., Su, W., Yang, C., Huang, G., Li, B., Lu, L., & Wang, X. (2023). Minecraft中的幽灵:通过基于文本的知识和记忆使用大型语言模型构建一般能力智能体. arXiv 预印本 arXiv:2305.17144.

参考 Paper:https://arxiv.org/pdf/2503.0350

Logo

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区,共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐