rci-agent：开源智能体助力计算机任务自动化

rci-agent：开源智能体助力计算机任务自动化项目介绍rci-agent 是一个开源项目，旨在利用预训练的语言模型执行计算机任务。该项目是论文 "Language Models can Solve Computer Tasks" 的代码库，通过在 MiniWoB++ 基准测试中引入自然语言指导，rci-agent 展示了其强大的计算机任务处理能力。项目技术分析rci...

郁铎舒

1057人浏览 · 2025-06-16 09:00:00

郁铎舒 · 2025-06-16 09:00:00 发布

rci-agent：开源智能体助力计算机任务自动化

项目介绍

rci-agent 是一个开源项目，旨在利用预训练的语言模型执行计算机任务。该项目是论文 "Language Models can Solve Computer Tasks" 的代码库，通过在 MiniWoB++ 基准测试中引入自然语言指导，rci-agent 展示了其强大的计算机任务处理能力。

项目技术分析

rci-agent 的核心技术是基于 RCI (Reinforcement Learning with Control Instructions) 的智能体，它采用简单的 RCI 提示方案，能够不断优化其输出结果。rci-agent 使用 Python 3.9 实现，并依赖于多个库，包括 gym、openai、selenium 等。以下是该项目的核心依赖：

gym：用于创建和操作计算环境。
openai：提供预训练语言模型的接口。
selenium：用于网页自动化测试。
Pillow：用于图像处理。
regex：用于正则表达式匹配。

项目通过 pip 管理依赖，简化了安装和配置过程。

项目及应用场景

rci-agent 的应用场景广泛，特别是在需要自动化执行计算机任务的领域中，例如：

网页自动化测试：rci-agent 可以模拟用户在网页上的操作，自动化执行测试用例。
智能问答系统：结合语言模型，rci-agent 可以理解和回答复杂的问题。
数据抓取：rci-agent 可以自动访问网页，抓取所需的数据。

以下是使用 rci-agent 的一个简单示例：

python main.py --env choose-list --llm ChatGPT --num-episodes 1 --irci 1 --sgrounding

这里，choose-list 是一个 MiniWoB++ 任务，ChatGPT 是使用的语言模型名称，其他参数定义了智能体的运行方式和迭代次数。

项目特点

rci-agent 的特点包括：

高效性：rci-agent 使用 RCI 提示方案，能够快速优化输出结果。
灵活性：支持多种语言模型，如 ChatGPT、davinci、ada 等，适应不同的任务需求。
易用性：通过 pip 安装依赖，简化了配置过程，易于上手。
高性能：在 MiniWoB++ 基准测试中，rci-agent 取得了第二高的成绩，展示了其优越的性能。

以下是 rci-agent 的性能对比图：

性能对比

rci-agent 在仅使用 1/120 的 WebN-T5-3B 样本数和 1/11,000 的 CC-Net 样本数的情况下，就取得了显著的成绩。这证明了利用语言模型在计算机任务中的巨大潜力。

总结

rci-agent 是一个功能强大的开源智能体项目，它通过结合 RCI 技术和预训练语言模型，为计算机任务自动化提供了新的解决方案。无论是自动化测试、智能问答还是数据抓取，rci-agent 都能为您提供高效、灵活的解决方案。如果您对计算机任务自动化感兴趣，rci-agent 绝对值得一试。

注意：在您的研究中使用 rci-agent 时，请引用以下论文：

@article{kim2023language,
      title={Language Models can Solve Computer Tasks}, 
      author={Geunwoo Kim and Pierre Baldi and Stephen McAleer},
      journal={arXiv preprint arXiv:2303.17491},
      year={2023},
}

通过正确引用，您可以支持开源社区，并推动计算机任务自动化领域的发展。

脑启社区

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区，共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐