ETPNav: 用于视觉语言导航的开源框架

ETPNav(Evolutionary Topological Planning for Vision-Language Navigation)是一个面向连续环境视觉语言导航的开源项目。该项目基于Python语言,结合了深度学习技术和拓扑规划方法,旨在提高机器在复杂环境中的导航能力。

项目基础介绍

ETPNav项目是[TPAMI 2024]官方库,它提出了一种新的导航框架,通过自我组织预测的航点进行在线拓扑映射,无需事先的环境经验。框架的核心是一个基于变压器的跨模态规划器,用于根据拓扑地图和指令生成导航计划。项目的目标是使导航代理能够分解导航过程为高级规划和低级控制,并通过障碍物避免控制器实施计划。

核心功能

  • 在线拓扑映射:ETPNav能够实时地对环境进行拓扑映射,生成长距离导航计划。
  • 跨模态规划:利用基于变压器的规划器,根据拓扑地图和语言指令生成导航路径。
  • 障碍物避免控制:采用试错启发式方法,避免在导航过程中遇到障碍物导致停滞。
  • 性能提升:实验结果显示,ETPNav在R2R-CE和RxR-CE数据集上相较于先前技术有超过10%和20%的性能提升。

最近更新的功能

项目最近的更新主要集中在以下方面:

  • 代码优化:对现有代码进行优化,以提高运行效率和可维护性。
  • 文档完善:更新项目文档,为用户提供了更详细的安装和使用指南。
  • 数据集支持:增加了对更多数据集的支持,包括R2R-CE和RxR-CE数据集。
  • 训练和评估脚本:改进了训练和评估的bash脚本,使得多GPU训练更加便捷。

ETPNav项目不断迭代更新,致力于提供更加高效和稳定的视觉语言导航解决方案,对于有相关研究需求的开发者和研究者来说,这是一个非常有价值的开源项目。

Logo

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区,共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐