rci-agent:开源智能体助力计算机任务自动化
rci-agent:开源智能体助力计算机任务自动化项目介绍rci-agent 是一个开源项目,旨在利用预训练的语言模型执行计算机任务。该项目是论文 "Language Models can Solve Computer Tasks" 的代码库,通过在 MiniWoB++ 基准测试中引入自然语言指导,rci-agent 展示了其强大的计算机任务处理能力。项目技术分析rci...
rci-agent:开源智能体助力计算机任务自动化
项目介绍
rci-agent 是一个开源项目,旨在利用预训练的语言模型执行计算机任务。该项目是论文 "Language Models can Solve Computer Tasks" 的代码库,通过在 MiniWoB++ 基准测试中引入自然语言指导,rci-agent 展示了其强大的计算机任务处理能力。
项目技术分析
rci-agent 的核心技术是基于 RCI (Reinforcement Learning with Control Instructions) 的智能体,它采用简单的 RCI 提示方案,能够不断优化其输出结果。rci-agent 使用 Python 3.9 实现,并依赖于多个库,包括 gym、openai、selenium 等。以下是该项目的核心依赖:
- gym:用于创建和操作计算环境。
- openai:提供预训练语言模型的接口。
- selenium:用于网页自动化测试。
- Pillow:用于图像处理。
- regex:用于正则表达式匹配。
项目通过 pip 管理依赖,简化了安装和配置过程。
项目及应用场景
rci-agent 的应用场景广泛,特别是在需要自动化执行计算机任务的领域中,例如:
- 网页自动化测试:rci-agent 可以模拟用户在网页上的操作,自动化执行测试用例。
- 智能问答系统:结合语言模型,rci-agent 可以理解和回答复杂的问题。
- 数据抓取:rci-agent 可以自动访问网页,抓取所需的数据。
以下是使用 rci-agent 的一个简单示例:
python main.py --env choose-list --llm ChatGPT --num-episodes 1 --irci 1 --sgrounding
这里,choose-list 是一个 MiniWoB++ 任务,ChatGPT 是使用的语言模型名称,其他参数定义了智能体的运行方式和迭代次数。
项目特点
rci-agent 的特点包括:
- 高效性:rci-agent 使用 RCI 提示方案,能够快速优化输出结果。
- 灵活性:支持多种语言模型,如 ChatGPT、davinci、ada 等,适应不同的任务需求。
- 易用性:通过 pip 安装依赖,简化了配置过程,易于上手。
- 高性能:在 MiniWoB++ 基准测试中,rci-agent 取得了第二高的成绩,展示了其优越的性能。
以下是 rci-agent 的性能对比图:

rci-agent 在仅使用 1/120 的 WebN-T5-3B 样本数和 1/11,000 的 CC-Net 样本数的情况下,就取得了显著的成绩。这证明了利用语言模型在计算机任务中的巨大潜力。
总结
rci-agent 是一个功能强大的开源智能体项目,它通过结合 RCI 技术和预训练语言模型,为计算机任务自动化提供了新的解决方案。无论是自动化测试、智能问答还是数据抓取,rci-agent 都能为您提供高效、灵活的解决方案。如果您对计算机任务自动化感兴趣,rci-agent 绝对值得一试。
注意:在您的研究中使用 rci-agent 时,请引用以下论文:
@article{kim2023language,
title={Language Models can Solve Computer Tasks},
author={Geunwoo Kim and Pierre Baldi and Stephen McAleer},
journal={arXiv preprint arXiv:2303.17491},
year={2023},
}
通过正确引用,您可以支持开源社区,并推动计算机任务自动化领域的发展。
更多推荐



所有评论(0)