从训练到实测:6500张图像+5个场景,解锁无人机追踪的“AI双引擎”(YOLOv3+DDPG)

论文信息

信息类别 具体内容
论文原标题 A new drone chasing drone approach based on deep reinforcement learning with accelerated rewards
核心关键词 无人机自主追踪;YOLOv3;DDPG;单摄像头输入;实时检测

一段话总结

该研究提出一种仅依赖追踪无人机摄像头的自主追踪方案,通过6500张无人机图像训练YOLOv3(检测准确率95%)实现目标识别,再用OpenAI Gym训练DDPG智能体决策追踪动作;在室内体育馆的5个场景(含2个光照测试场景)中,以DJI-Tello为追踪无人机实测,结果显示追踪准确率最高99%、无人机响应准确率最高95%,同时分析了硬件、通信延迟、光照对系统的影响,指出仅室内测试的局限性,并提出未来面向无人机集群追踪的改进方向。

思维导图

在这里插入图片描述

研究背景

简单来说,现在无人机越来越多地用在安防巡逻、灾害救援等场景,比如景区用无人机盯紧“可疑无人机”,避免其闯入禁飞区。但过去的无人机追踪方案有个大问题:大多要依赖多个传感器——比如热红外摄像头、雷达、GPS,不仅成本高,还容易因为传感器太多导致系统复杂、故障率上升。

举个例子:之前某团队做的无人机追踪,需要同时用摄像头+GPS+雷达,一旦GPS信号弱(比如室内、高楼遮挡),追踪就会“掉线”;还有的方案只在电脑模拟器里测试,到了真实环境中,遇到光照变化、目标突然加速,就会“追丢”。

而实际需求是:希望无人机能像“老鹰盯兔子”一样,只靠自己的“眼睛”(摄像头)就能盯紧目标,不用带一堆额外设备,还能在真实场景中稳定工作。这就是这篇论文要解决的核心问题——用更简单、更低成本的单摄像头方案,实现无人机的实时自主追踪。

在这里插入图片描述

创新点

  1. 输入源简化,成本更低:不同于以往依赖多传感器(GPS、雷达等)的方案,该研究仅用追踪无人机的摄像头作为唯一输入,减少硬件设备,降低复杂度和成本,更易落地。
  2. 混合模型+实测验证,填补空白:首次将“YOLOv3(目标检测)+DDPG(强化学习决策)”结合,并在5个真实室内场景(含不同光照)中实测验证,而过去很多混合模型只停留在模拟器测试阶段,缺乏实际应用价值。
  3. 动作决策更精细,准确率更高:设计了“距离+面积比”的双重决策规则——用边界框与屏幕的面积比控制无人机“前后”(太近后退、太远前进),用DDPG根据边界框位置偏移控制“上下左右”,配合优化的奖励函数,让追踪动作更精准,最高准确率达99%。
  4. 超参数优化,稳定性更强:通过网格搜索和贝叶斯优化,确定了DDPG的最优超参数(如折扣因子γ=0.99、学习率0.0001),相比其他参数组合,总奖励更高(-4.2)、收敛更快(25000轮)、稳定性更强。

研究方法和思路、实验方法

(一)研究方法和思路(拆解为3步)

步骤1:用YOLOv3实现无人机目标检测
  • 数据准备:收集6500张不同角度、尺寸的无人机图像(仅1个类别:无人机),用于训练和验证。
  • 模型训练:设置批大小20、学习率0.0001,训练100轮epoch,直到检测准确率稳定在95%。
  • 检测功能:追踪无人机摄像头实时采集图像,传输到中央计算机,YOLOv3识别目标并生成“边界框”,同时计算边界框中心与屏幕中心(固定为480×360像素)的距离。
步骤2:用DDPG实现追踪动作决策
  • 算法选择:用DDPG(深度确定性策略梯度),因为它支持连续动作空间,适合无人机“上下左右前后”的平滑控制。
  • 奖励函数设计:以“边界框中心与屏幕中心的距离(dist)”为核心,基准距离110单位:
    • 当dist>110时,奖励=-dist+0.25(鼓励靠近目标);
    • 当dist<110时,奖励=100-dist(鼓励保持距离,避免过近)。
  • 超参数优化:对比不同参数组合(如γ=0.95/0.99、学习率0.0001/0.001),最终选稳定性最高的组合(γ=0.99、学习率0.0001、探索噪声σ=0.3)。
步骤3:搭建系统并设计工作流程
  • 系统组件:追踪无人机(采集图像)、被追踪无人机(目标)、中央计算机(处理数据+发指令),三者通过无线连接。
  • 工作流程:
    1. 检测阶段:摄像头采图→YOLOv3生成边界框→算中心距离;
    2. 追踪阶段:DDPG根据距离/面积比决策动作→中央计算机发指令→无人机执行;
    3. 异常处理:目标脱离视野时,无人机按预设模式扫描;长期未找到则进入巡逻模式。

(二)实验方法

1. 实验环境控制
  • 地点:室内体育馆(避免户外风、雨、强光干扰,保证测试条件稳定)。
  • 光照测试:在场景2、3中设置低、中、高3种光照(比如低光照=傍晚灯光,中光照=正常室内灯,高光照=强光直射),观察光照对准确率的影响。
2. 硬件选择
设备类型 型号/参数 作用
追踪无人机 DJI-Tello,80g,续航13min,8cm/s 采集图像、执行追踪动作
被追踪无人机 标准四旋翼,147g,续航15min,15cm/s 作为追踪目标,模拟不同运动
中央计算机 搭载GPU的台式机(未提具体型号) 运行YOLOv3和DDPG,发指令
3. 实验设计
  • 模拟器训练:用OpenAI Gym搭建自定义环境,训练DDPG智能体(约4小时),确保在模拟场景中稳定追踪。
  • 实测试验:设计5个场景,覆盖不同运动状态:
    • 场景1:被追踪机静止(距离25m);
    • 场景2:被追踪机匀速飞行;
    • 场景3:被追踪机垂直轴变速振荡;
    • 场景4:被追踪机水平轴变速振荡;
    • 场景5:被追踪机高速变速飞行。

八、主要成果和贡献

(一)核心实验成果

成果类别 具体内容
场景追踪结果 5个场景中,场景1(静止目标)表现最好(追踪准确率99%),场景5(高速目标)最差(42%),详情见下表
光照影响结果 中光照性能最优(场景2中光照追踪准确率95%),低/高光照会导致准确率下降(场景3低光照仅40%)
超参数优化结果 选定的参数组合(γ=0.99、学习率0.0001)总奖励-4.2,收敛轮数25000,稳定性远高于其他组合
场景追踪结果详情表
场景编号 被追踪机运动状态 飞行时长(min) 追踪准确率 检测准确率
1 静止(距离25m) 4 99% 95%
2 匀速飞行 9 95% 94%
3 垂直轴变速振荡 10 86% 90%
4 水平轴变速振荡 9 82% 90%
5 高速变速飞行 5 42% 60%

(二)领域贡献

  1. 降低了无人机追踪的门槛:过去要多传感器才能实现的追踪,现在只用一个摄像头就行,成本低、易操作,中小企业或景区都能用得起。
  2. 提供了“实测可行”的方案:很多类似研究只在模拟器里“纸上谈兵”,这篇论文在真实室内场景中验证了方案的有效性(最高99%准确率),为实际应用打下基础。
  3. 指出了优化方向,帮后续研究避坑:明确了“硬件速度不够(DJI-Tello仅8cm/s)”“通信延迟”“低光照”是当前的短板,后续研究可以针对性解决(比如换更快的无人机、用5G降延迟)。
  4. 为集群追踪铺路:虽然现在只做了“一对一”追踪,但提出的YOLOv3检测+DDPG决策框架,未来可以扩展到“多对多”的无人机集群追踪,比如用多架无人机协同盯紧多个目标。

(三)开源资源

  • 代码:原文档未提及开源代码地址,暂无法提供。
  • 数据集:训练YOLOv3的6500张无人机图像数据集未提及开源,暂无法提供。

关键问题

问题1:这个方案为什么只靠摄像头就能实现追踪?不用GPS或雷达不会“追丢”吗?

答:靠“YOLOv3+DDPG”的配合:YOLOv3负责实时识别摄像头里的目标无人机,生成边界框并计算它和屏幕中心的距离;DDPG根据这个距离决策“上下左右前后”的动作,让目标始终尽量在屏幕中心;就算暂时“追丢”(目标脱离视野),无人机还会按预设模式扫描环境,重新找到目标后继续追踪,所以不用GPS/雷达也能尽量不丢。

问题2:为什么场景5(高速目标)的追踪准确率只有42%,远低于场景1的99%?

答:主要有3个原因:① 硬件跟不上:追踪无人机(DJI-Tello)最大速度8cm/s,被追踪机是15cm/s,追不上高速目标;② 延迟影响:无线传输图像、中央计算机处理都有延迟,高速目标的位置变化快,延迟会导致决策“滞后”;③ 算法适应差:DDPG是在模拟器里训练的,对高速变速的真实目标,还没来得及调整动作,目标就跑远了。

问题3:这个方案能用到户外安防吗?比如景区追踪可疑无人机。

答:目前还不行,因为有局限性:① 只在室内测试过,户外的风会让无人机晃,雨会挡摄像头,强光/黄昏低光照会让YOLOv3检测不准;② 户外距离远,无线通信延迟会更大,追踪更难;但未来可以改进:比如加IMU传感器抗风,用5G降延迟,优化YOLOv3适应户外光照,改进后有希望用于户外。

问题4:YOLOv3和DDPG在方案里分别扮演什么角色?少了一个行不行?

答:不行,两者是“分工合作”的:YOLOv3是“眼睛”,负责“看到”目标在哪里,没有它就不知道目标的位置;DDPG是“大脑”,负责根据“眼睛”看到的位置,决定该怎么动(上下左右前后),没有它就不知道该怎么追。少了任何一个,追踪都无法实现。

问题5:未来要做无人机集群追踪(多架追多架),这个方案需要怎么改?

答:至少要改3点:① 检测端:YOLOv3现在只能识别“无人机”这一个类别,要加“敌友识别”功能,让无人机分清该追的目标和自己人;② 决策端:DDPG现在是“一对一”决策,要改成“多机协同决策”,避免多架无人机撞一起,或者都追同一个目标;③ 通信端:多架无人机之间要能实时共享目标位置信息,可能需要用5G或专用通信模块。

总结

该研究针对现有无人机追踪依赖多传感器、缺乏实测验证的问题,提出了单摄像头输入的YOLOv3+DDPG混合方案,通过6500张图像训练YOLOv3实现高准确率检测,用优化超参数的DDPG实现精细动作决策;在室内5个场景的实测中,最高追踪准确率达99%,验证了方案的有效性。但方案仍有局限:仅适用于室内,受硬件速度、通信延迟、光照影响较大。总体而言,该方案为低成本、单输入的无人机自主追踪提供了可行思路,后续通过硬件升级、算法优化、多传感器融合,有望扩展到户外和集群追踪场景,为安防、救援等领域的无人机应用提供更有力的技术支持。

Logo

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区,共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐