rci-agent:开源智能体助力计算机任务自动化

项目介绍

rci-agent 是一个开源项目,旨在利用预训练的语言模型执行计算机任务。该项目是论文 "Language Models can Solve Computer Tasks" 的代码库,通过在 MiniWoB++ 基准测试中引入自然语言指导,rci-agent 展示了其强大的计算机任务处理能力。

项目技术分析

rci-agent 的核心技术是基于 RCI (Reinforcement Learning with Control Instructions) 的智能体,它采用简单的 RCI 提示方案,能够不断优化其输出结果。rci-agent 使用 Python 3.9 实现,并依赖于多个库,包括 gym、openai、selenium 等。以下是该项目的核心依赖:

  • gym:用于创建和操作计算环境。
  • openai:提供预训练语言模型的接口。
  • selenium:用于网页自动化测试。
  • Pillow:用于图像处理。
  • regex:用于正则表达式匹配。

项目通过 pip 管理依赖,简化了安装和配置过程。

项目及应用场景

rci-agent 的应用场景广泛,特别是在需要自动化执行计算机任务的领域中,例如:

  • 网页自动化测试:rci-agent 可以模拟用户在网页上的操作,自动化执行测试用例。
  • 智能问答系统:结合语言模型,rci-agent 可以理解和回答复杂的问题。
  • 数据抓取:rci-agent 可以自动访问网页,抓取所需的数据。

以下是使用 rci-agent 的一个简单示例:

python main.py --env choose-list --llm ChatGPT --num-episodes 1 --irci 1 --sgrounding

这里,choose-list 是一个 MiniWoB++ 任务,ChatGPT 是使用的语言模型名称,其他参数定义了智能体的运行方式和迭代次数。

项目特点

rci-agent 的特点包括:

  1. 高效性:rci-agent 使用 RCI 提示方案,能够快速优化输出结果。
  2. 灵活性:支持多种语言模型,如 ChatGPT、davinci、ada 等,适应不同的任务需求。
  3. 易用性:通过 pip 安装依赖,简化了配置过程,易于上手。
  4. 高性能:在 MiniWoB++ 基准测试中,rci-agent 取得了第二高的成绩,展示了其优越的性能。

以下是 rci-agent 的性能对比图:

性能对比

rci-agent 在仅使用 1/120 的 WebN-T5-3B 样本数和 1/11,000 的 CC-Net 样本数的情况下,就取得了显著的成绩。这证明了利用语言模型在计算机任务中的巨大潜力。

总结

rci-agent 是一个功能强大的开源智能体项目,它通过结合 RCI 技术和预训练语言模型,为计算机任务自动化提供了新的解决方案。无论是自动化测试、智能问答还是数据抓取,rci-agent 都能为您提供高效、灵活的解决方案。如果您对计算机任务自动化感兴趣,rci-agent 绝对值得一试。

注意:在您的研究中使用 rci-agent 时,请引用以下论文:

@article{kim2023language,
      title={Language Models can Solve Computer Tasks}, 
      author={Geunwoo Kim and Pierre Baldi and Stephen McAleer},
      journal={arXiv preprint arXiv:2303.17491},
      year={2023},
}

通过正确引用,您可以支持开源社区,并推动计算机任务自动化领域的发展。

Logo

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区,共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐