[论文阅读] 人工智能 + 软件工程 | 从训练到实测:6500张图像+5个场景,解锁无人机追踪的“AI双引擎”(YOLOv3+DDPG)
该研究提出一种仅依赖单摄像头的无人机自主追踪方案,结合YOLOv3目标检测(95%准确率)和DDPG强化学习决策,在5个室内场景实测中实现最高99%的追踪准确率。创新点包括简化传感器输入、优化动作决策规则,并通过超参数调优提升稳定性。实验发现硬件速度、通信延迟和光照是主要限制因素,为未来集群追踪研究提供了实测基础和改进方向。
从训练到实测:6500张图像+5个场景,解锁无人机追踪的“AI双引擎”(YOLOv3+DDPG)
论文信息
| 信息类别 | 具体内容 |
|---|---|
| 论文原标题 | A new drone chasing drone approach based on deep reinforcement learning with accelerated rewards |
| 核心关键词 | 无人机自主追踪;YOLOv3;DDPG;单摄像头输入;实时检测 |
一段话总结
该研究提出一种仅依赖追踪无人机摄像头的自主追踪方案,通过6500张无人机图像训练YOLOv3(检测准确率95%)实现目标识别,再用OpenAI Gym训练DDPG智能体决策追踪动作;在室内体育馆的5个场景(含2个光照测试场景)中,以DJI-Tello为追踪无人机实测,结果显示追踪准确率最高99%、无人机响应准确率最高95%,同时分析了硬件、通信延迟、光照对系统的影响,指出仅室内测试的局限性,并提出未来面向无人机集群追踪的改进方向。
思维导图

研究背景
简单来说,现在无人机越来越多地用在安防巡逻、灾害救援等场景,比如景区用无人机盯紧“可疑无人机”,避免其闯入禁飞区。但过去的无人机追踪方案有个大问题:大多要依赖多个传感器——比如热红外摄像头、雷达、GPS,不仅成本高,还容易因为传感器太多导致系统复杂、故障率上升。
举个例子:之前某团队做的无人机追踪,需要同时用摄像头+GPS+雷达,一旦GPS信号弱(比如室内、高楼遮挡),追踪就会“掉线”;还有的方案只在电脑模拟器里测试,到了真实环境中,遇到光照变化、目标突然加速,就会“追丢”。
而实际需求是:希望无人机能像“老鹰盯兔子”一样,只靠自己的“眼睛”(摄像头)就能盯紧目标,不用带一堆额外设备,还能在真实场景中稳定工作。这就是这篇论文要解决的核心问题——用更简单、更低成本的单摄像头方案,实现无人机的实时自主追踪。

创新点
- 输入源简化,成本更低:不同于以往依赖多传感器(GPS、雷达等)的方案,该研究仅用追踪无人机的摄像头作为唯一输入,减少硬件设备,降低复杂度和成本,更易落地。
- 混合模型+实测验证,填补空白:首次将“YOLOv3(目标检测)+DDPG(强化学习决策)”结合,并在5个真实室内场景(含不同光照)中实测验证,而过去很多混合模型只停留在模拟器测试阶段,缺乏实际应用价值。
- 动作决策更精细,准确率更高:设计了“距离+面积比”的双重决策规则——用边界框与屏幕的面积比控制无人机“前后”(太近后退、太远前进),用DDPG根据边界框位置偏移控制“上下左右”,配合优化的奖励函数,让追踪动作更精准,最高准确率达99%。
- 超参数优化,稳定性更强:通过网格搜索和贝叶斯优化,确定了DDPG的最优超参数(如折扣因子γ=0.99、学习率0.0001),相比其他参数组合,总奖励更高(-4.2)、收敛更快(25000轮)、稳定性更强。
研究方法和思路、实验方法
(一)研究方法和思路(拆解为3步)
步骤1:用YOLOv3实现无人机目标检测
- 数据准备:收集6500张不同角度、尺寸的无人机图像(仅1个类别:无人机),用于训练和验证。
- 模型训练:设置批大小20、学习率0.0001,训练100轮epoch,直到检测准确率稳定在95%。
- 检测功能:追踪无人机摄像头实时采集图像,传输到中央计算机,YOLOv3识别目标并生成“边界框”,同时计算边界框中心与屏幕中心(固定为480×360像素)的距离。
步骤2:用DDPG实现追踪动作决策
- 算法选择:用DDPG(深度确定性策略梯度),因为它支持连续动作空间,适合无人机“上下左右前后”的平滑控制。
- 奖励函数设计:以“边界框中心与屏幕中心的距离(dist)”为核心,基准距离110单位:
- 当dist>110时,奖励=-dist+0.25(鼓励靠近目标);
- 当dist<110时,奖励=100-dist(鼓励保持距离,避免过近)。
- 超参数优化:对比不同参数组合(如γ=0.95/0.99、学习率0.0001/0.001),最终选稳定性最高的组合(γ=0.99、学习率0.0001、探索噪声σ=0.3)。
步骤3:搭建系统并设计工作流程
- 系统组件:追踪无人机(采集图像)、被追踪无人机(目标)、中央计算机(处理数据+发指令),三者通过无线连接。
- 工作流程:
- 检测阶段:摄像头采图→YOLOv3生成边界框→算中心距离;
- 追踪阶段:DDPG根据距离/面积比决策动作→中央计算机发指令→无人机执行;
- 异常处理:目标脱离视野时,无人机按预设模式扫描;长期未找到则进入巡逻模式。
(二)实验方法
1. 实验环境控制
- 地点:室内体育馆(避免户外风、雨、强光干扰,保证测试条件稳定)。
- 光照测试:在场景2、3中设置低、中、高3种光照(比如低光照=傍晚灯光,中光照=正常室内灯,高光照=强光直射),观察光照对准确率的影响。
2. 硬件选择
| 设备类型 | 型号/参数 | 作用 |
|---|---|---|
| 追踪无人机 | DJI-Tello,80g,续航13min,8cm/s | 采集图像、执行追踪动作 |
| 被追踪无人机 | 标准四旋翼,147g,续航15min,15cm/s | 作为追踪目标,模拟不同运动 |
| 中央计算机 | 搭载GPU的台式机(未提具体型号) | 运行YOLOv3和DDPG,发指令 |
3. 实验设计
- 模拟器训练:用OpenAI Gym搭建自定义环境,训练DDPG智能体(约4小时),确保在模拟场景中稳定追踪。
- 实测试验:设计5个场景,覆盖不同运动状态:
- 场景1:被追踪机静止(距离25m);
- 场景2:被追踪机匀速飞行;
- 场景3:被追踪机垂直轴变速振荡;
- 场景4:被追踪机水平轴变速振荡;
- 场景5:被追踪机高速变速飞行。
八、主要成果和贡献
(一)核心实验成果
| 成果类别 | 具体内容 |
|---|---|
| 场景追踪结果 | 5个场景中,场景1(静止目标)表现最好(追踪准确率99%),场景5(高速目标)最差(42%),详情见下表 |
| 光照影响结果 | 中光照性能最优(场景2中光照追踪准确率95%),低/高光照会导致准确率下降(场景3低光照仅40%) |
| 超参数优化结果 | 选定的参数组合(γ=0.99、学习率0.0001)总奖励-4.2,收敛轮数25000,稳定性远高于其他组合 |
场景追踪结果详情表
| 场景编号 | 被追踪机运动状态 | 飞行时长(min) | 追踪准确率 | 检测准确率 |
|---|---|---|---|---|
| 1 | 静止(距离25m) | 4 | 99% | 95% |
| 2 | 匀速飞行 | 9 | 95% | 94% |
| 3 | 垂直轴变速振荡 | 10 | 86% | 90% |
| 4 | 水平轴变速振荡 | 9 | 82% | 90% |
| 5 | 高速变速飞行 | 5 | 42% | 60% |
(二)领域贡献
- 降低了无人机追踪的门槛:过去要多传感器才能实现的追踪,现在只用一个摄像头就行,成本低、易操作,中小企业或景区都能用得起。
- 提供了“实测可行”的方案:很多类似研究只在模拟器里“纸上谈兵”,这篇论文在真实室内场景中验证了方案的有效性(最高99%准确率),为实际应用打下基础。
- 指出了优化方向,帮后续研究避坑:明确了“硬件速度不够(DJI-Tello仅8cm/s)”“通信延迟”“低光照”是当前的短板,后续研究可以针对性解决(比如换更快的无人机、用5G降延迟)。
- 为集群追踪铺路:虽然现在只做了“一对一”追踪,但提出的YOLOv3检测+DDPG决策框架,未来可以扩展到“多对多”的无人机集群追踪,比如用多架无人机协同盯紧多个目标。
(三)开源资源
- 代码:原文档未提及开源代码地址,暂无法提供。
- 数据集:训练YOLOv3的6500张无人机图像数据集未提及开源,暂无法提供。
关键问题
问题1:这个方案为什么只靠摄像头就能实现追踪?不用GPS或雷达不会“追丢”吗?
答:靠“YOLOv3+DDPG”的配合:YOLOv3负责实时识别摄像头里的目标无人机,生成边界框并计算它和屏幕中心的距离;DDPG根据这个距离决策“上下左右前后”的动作,让目标始终尽量在屏幕中心;就算暂时“追丢”(目标脱离视野),无人机还会按预设模式扫描环境,重新找到目标后继续追踪,所以不用GPS/雷达也能尽量不丢。
问题2:为什么场景5(高速目标)的追踪准确率只有42%,远低于场景1的99%?
答:主要有3个原因:① 硬件跟不上:追踪无人机(DJI-Tello)最大速度8cm/s,被追踪机是15cm/s,追不上高速目标;② 延迟影响:无线传输图像、中央计算机处理都有延迟,高速目标的位置变化快,延迟会导致决策“滞后”;③ 算法适应差:DDPG是在模拟器里训练的,对高速变速的真实目标,还没来得及调整动作,目标就跑远了。
问题3:这个方案能用到户外安防吗?比如景区追踪可疑无人机。
答:目前还不行,因为有局限性:① 只在室内测试过,户外的风会让无人机晃,雨会挡摄像头,强光/黄昏低光照会让YOLOv3检测不准;② 户外距离远,无线通信延迟会更大,追踪更难;但未来可以改进:比如加IMU传感器抗风,用5G降延迟,优化YOLOv3适应户外光照,改进后有希望用于户外。
问题4:YOLOv3和DDPG在方案里分别扮演什么角色?少了一个行不行?
答:不行,两者是“分工合作”的:YOLOv3是“眼睛”,负责“看到”目标在哪里,没有它就不知道目标的位置;DDPG是“大脑”,负责根据“眼睛”看到的位置,决定该怎么动(上下左右前后),没有它就不知道该怎么追。少了任何一个,追踪都无法实现。
问题5:未来要做无人机集群追踪(多架追多架),这个方案需要怎么改?
答:至少要改3点:① 检测端:YOLOv3现在只能识别“无人机”这一个类别,要加“敌友识别”功能,让无人机分清该追的目标和自己人;② 决策端:DDPG现在是“一对一”决策,要改成“多机协同决策”,避免多架无人机撞一起,或者都追同一个目标;③ 通信端:多架无人机之间要能实时共享目标位置信息,可能需要用5G或专用通信模块。
总结
该研究针对现有无人机追踪依赖多传感器、缺乏实测验证的问题,提出了单摄像头输入的YOLOv3+DDPG混合方案,通过6500张图像训练YOLOv3实现高准确率检测,用优化超参数的DDPG实现精细动作决策;在室内5个场景的实测中,最高追踪准确率达99%,验证了方案的有效性。但方案仍有局限:仅适用于室内,受硬件速度、通信延迟、光照影响较大。总体而言,该方案为低成本、单输入的无人机自主追踪提供了可行思路,后续通过硬件升级、算法优化、多传感器融合,有望扩展到户外和集群追踪场景,为安防、救援等领域的无人机应用提供更有力的技术支持。
更多推荐


所有评论(0)