PaSa项目使用教程
PaSa(Paper Search Agent)是一个基于大型语言模型的先进学术搜索代理。它可以自主地做出一系列决策,包括调用搜索工具、阅读论文以及选择相关参考文献,以最终为复杂的学术查询提供全面而准确的结果。PaSa 使用强化学习进行优化,并在合成数据集AutoScholarQuery上进行训练,该数据集包含35k个细粒度的学术查询和来自顶级人工智能会议出版物对应的论文。此外,还开发了RealS
·
PaSa项目使用教程
1. 项目介绍
PaSa(Paper Search Agent)是一个基于大型语言模型的先进学术搜索代理。它可以自主地做出一系列决策,包括调用搜索工具、阅读论文以及选择相关参考文献,以最终为复杂的学术查询提供全面而准确的结果。PaSa 使用强化学习进行优化,并在合成数据集AutoScholarQuery上进行训练,该数据集包含35k个细粒度的学术查询和来自顶级人工智能会议出版物对应的论文。此外,还开发了RealScholarQuery基准,收集真实世界的学术查询,以评估PaSa在更现实场景中的性能。
2. 项目快速启动
以下是快速启动PaSa项目的步骤:
首先,确保你已经安装了Python环境。然后按照以下步骤操作:
# 克隆项目仓库
git clone git@github.com:bytedance/pasa.git
# 进入项目目录
cd pasa
# 准备数据集
# 下载数据集并保存到data文件夹中(具体数据集下载地址在项目README中有说明)
# 准备模型 checkpoints
# 下载pasa-7b-crawler和pasa-7b-selector模型 checkpoints 并保存到checkpoints文件夹中
# 安装依赖
pip install -r requirements.txt
# 应用程序需要Google Search API密钥,请在serper.dev申请并替换utils.py中的'your google keys'
# 运行PaSa
python run_paper_agent.py
请注意,上述步骤中的utils.py中需要替换的'your google keys'是指Google Search API的密钥。
3. 应用案例和最佳实践
应用案例
- 搜索特定主题的学术论文。
- 跟踪特定研究领域内的最新研究进展。
- 为学术报告或论文写作寻找相关文献。
最佳实践
- 在使用PaSa时,尽可能详细地描述你的学术搜索需求。
- 利用PaSa的Crawler和Selector模块的优势,Crawler负责搜索和收集论文,Selector负责评估论文与查询的相关性。
- 在评估PaSa性能时,可以使用RealScholarQuery数据集来获得更接近现实使用场景的结果。
4. 典型生态项目
目前,PaSa项目作为一个独立的学术搜索工具,其生态项目还不是非常丰富。但是,它可以与以下类型的项目配合使用:
- 学术搜索引擎优化项目,如针对特定领域或语言的搜索优化。
- 教育平台,为学生和研究人员提供论文搜索和管理的集成服务。
- 研究协作工具,帮助研究人员在项目协作中发现相关文献。
通过这些生态项目,PaSa的学术搜索功能可以得到进一步扩展和增强。
更多推荐


所有评论(0)