[论文阅读] 人工智能 + 软件工程 | 从训练到实测：6500张图像+5个场景，解锁无人机追踪的“AI双引擎”（YOLOv3+DDPG）

该研究提出一种仅依赖单摄像头的无人机自主追踪方案，结合YOLOv3目标检测（95%准确率）和DDPG强化学习决策，在5个室内场景实测中实现最高99%的追踪准确率。创新点包括简化传感器输入、优化动作决策规则，并通过超参数调优提升稳定性。实验发现硬件速度、通信延迟和光照是主要限制因素，为未来集群追踪研究提供了实测基础和改进方向。

zhangjiaoshou_

1070人浏览 · 2025-09-09 09:00:00

zhangjiaoshou_ · 2025-09-09 09:00:00 发布

从训练到实测：6500张图像+5个场景，解锁无人机追踪的“AI双引擎”（YOLOv3+DDPG）

论文信息

信息类别	具体内容
论文原标题	A new drone chasing drone approach based on deep reinforcement learning with accelerated rewards
核心关键词	无人机自主追踪；YOLOv3；DDPG；单摄像头输入；实时检测

一段话总结

该研究提出一种仅依赖追踪无人机摄像头的自主追踪方案，通过6500张无人机图像训练YOLOv3（检测准确率95%）实现目标识别，再用OpenAI Gym训练DDPG智能体决策追踪动作；在室内体育馆的5个场景（含2个光照测试场景）中，以DJI-Tello为追踪无人机实测，结果显示追踪准确率最高99%、无人机响应准确率最高95%，同时分析了硬件、通信延迟、光照对系统的影响，指出仅室内测试的局限性，并提出未来面向无人机集群追踪的改进方向。

思维导图

在这里插入图片描述

研究背景

简单来说，现在无人机越来越多地用在安防巡逻、灾害救援等场景，比如景区用无人机盯紧“可疑无人机”，避免其闯入禁飞区。但过去的无人机追踪方案有个大问题：大多要依赖多个传感器——比如热红外摄像头、雷达、GPS，不仅成本高，还容易因为传感器太多导致系统复杂、故障率上升。

举个例子：之前某团队做的无人机追踪，需要同时用摄像头+GPS+雷达，一旦GPS信号弱（比如室内、高楼遮挡），追踪就会“掉线”；还有的方案只在电脑模拟器里测试，到了真实环境中，遇到光照变化、目标突然加速，就会“追丢”。

而实际需求是：希望无人机能像“老鹰盯兔子”一样，只靠自己的“眼睛”（摄像头）就能盯紧目标，不用带一堆额外设备，还能在真实场景中稳定工作。这就是这篇论文要解决的核心问题——用更简单、更低成本的单摄像头方案，实现无人机的实时自主追踪。

在这里插入图片描述

创新点

输入源简化，成本更低：不同于以往依赖多传感器（GPS、雷达等）的方案，该研究仅用追踪无人机的摄像头作为唯一输入，减少硬件设备，降低复杂度和成本，更易落地。
混合模型+实测验证，填补空白：首次将“YOLOv3（目标检测）+DDPG（强化学习决策）”结合，并在5个真实室内场景（含不同光照）中实测验证，而过去很多混合模型只停留在模拟器测试阶段，缺乏实际应用价值。
动作决策更精细，准确率更高：设计了“距离+面积比”的双重决策规则——用边界框与屏幕的面积比控制无人机“前后”（太近后退、太远前进），用DDPG根据边界框位置偏移控制“上下左右”，配合优化的奖励函数，让追踪动作更精准，最高准确率达99%。
超参数优化，稳定性更强：通过网格搜索和贝叶斯优化，确定了DDPG的最优超参数（如折扣因子γ=0.99、学习率0.0001），相比其他参数组合，总奖励更高（-4.2）、收敛更快（25000轮）、稳定性更强。

研究方法和思路、实验方法

（一）研究方法和思路（拆解为3步）

步骤1：用YOLOv3实现无人机目标检测

数据准备：收集6500张不同角度、尺寸的无人机图像（仅1个类别：无人机），用于训练和验证。
模型训练：设置批大小20、学习率0.0001，训练100轮epoch，直到检测准确率稳定在95%。
检测功能：追踪无人机摄像头实时采集图像，传输到中央计算机，YOLOv3识别目标并生成“边界框”，同时计算边界框中心与屏幕中心（固定为480×360像素）的距离。

步骤2：用DDPG实现追踪动作决策

算法选择：用DDPG（深度确定性策略梯度），因为它支持连续动作空间，适合无人机“上下左右前后”的平滑控制。
奖励函数设计：以“边界框中心与屏幕中心的距离（dist）”为核心，基准距离110单位：
- 当dist>110时，奖励=-dist+0.25（鼓励靠近目标）；
- 当dist<110时，奖励=100-dist（鼓励保持距离，避免过近）。
超参数优化：对比不同参数组合（如γ=0.95/0.99、学习率0.0001/0.001），最终选稳定性最高的组合（γ=0.99、学习率0.0001、探索噪声σ=0.3）。

步骤3：搭建系统并设计工作流程

系统组件：追踪无人机（采集图像）、被追踪无人机（目标）、中央计算机（处理数据+发指令），三者通过无线连接。
工作流程：
1. 检测阶段：摄像头采图→YOLOv3生成边界框→算中心距离；
2. 追踪阶段：DDPG根据距离/面积比决策动作→中央计算机发指令→无人机执行；
3. 异常处理：目标脱离视野时，无人机按预设模式扫描；长期未找到则进入巡逻模式。

（二）实验方法

1. 实验环境控制

地点：室内体育馆（避免户外风、雨、强光干扰，保证测试条件稳定）。
光照测试：在场景2、3中设置低、中、高3种光照（比如低光照=傍晚灯光，中光照=正常室内灯，高光照=强光直射），观察光照对准确率的影响。

2. 硬件选择

设备类型	型号/参数	作用
追踪无人机	DJI-Tello，80g，续航13min，8cm/s	采集图像、执行追踪动作
被追踪无人机	标准四旋翼，147g，续航15min，15cm/s	作为追踪目标，模拟不同运动
中央计算机	搭载GPU的台式机（未提具体型号）	运行YOLOv3和DDPG，发指令

3. 实验设计

模拟器训练：用OpenAI Gym搭建自定义环境，训练DDPG智能体（约4小时），确保在模拟场景中稳定追踪。
实测试验：设计5个场景，覆盖不同运动状态：
- 场景1：被追踪机静止（距离25m）；
- 场景2：被追踪机匀速飞行；
- 场景3：被追踪机垂直轴变速振荡；
- 场景4：被追踪机水平轴变速振荡；
- 场景5：被追踪机高速变速飞行。

八、主要成果和贡献

（一）核心实验成果

成果类别	具体内容
场景追踪结果	5个场景中，场景1（静止目标）表现最好（追踪准确率99%），场景5（高速目标）最差（42%），详情见下表
光照影响结果	中光照性能最优（场景2中光照追踪准确率95%），低/高光照会导致准确率下降（场景3低光照仅40%）
超参数优化结果	选定的参数组合（γ=0.99、学习率0.0001）总奖励-4.2，收敛轮数25000，稳定性远高于其他组合

场景追踪结果详情表

场景编号	被追踪机运动状态	飞行时长（min）	追踪准确率	检测准确率
1	静止（距离25m）	4	99%	95%
2	匀速飞行	9	95%	94%
3	垂直轴变速振荡	10	86%	90%
4	水平轴变速振荡	9	82%	90%
5	高速变速飞行	5	42%	60%

（二）领域贡献

降低了无人机追踪的门槛：过去要多传感器才能实现的追踪，现在只用一个摄像头就行，成本低、易操作，中小企业或景区都能用得起。
提供了“实测可行”的方案：很多类似研究只在模拟器里“纸上谈兵”，这篇论文在真实室内场景中验证了方案的有效性（最高99%准确率），为实际应用打下基础。
指出了优化方向，帮后续研究避坑：明确了“硬件速度不够（DJI-Tello仅8cm/s）”“通信延迟”“低光照”是当前的短板，后续研究可以针对性解决（比如换更快的无人机、用5G降延迟）。
为集群追踪铺路：虽然现在只做了“一对一”追踪，但提出的YOLOv3检测+DDPG决策框架，未来可以扩展到“多对多”的无人机集群追踪，比如用多架无人机协同盯紧多个目标。

（三）开源资源

代码：原文档未提及开源代码地址，暂无法提供。
数据集：训练YOLOv3的6500张无人机图像数据集未提及开源，暂无法提供。

关键问题

问题1：这个方案为什么只靠摄像头就能实现追踪？不用GPS或雷达不会“追丢”吗？

答：靠“YOLOv3+DDPG”的配合：YOLOv3负责实时识别摄像头里的目标无人机，生成边界框并计算它和屏幕中心的距离；DDPG根据这个距离决策“上下左右前后”的动作，让目标始终尽量在屏幕中心；就算暂时“追丢”（目标脱离视野），无人机还会按预设模式扫描环境，重新找到目标后继续追踪，所以不用GPS/雷达也能尽量不丢。

问题2：为什么场景5（高速目标）的追踪准确率只有42%，远低于场景1的99%？

答：主要有3个原因：① 硬件跟不上：追踪无人机（DJI-Tello）最大速度8cm/s，被追踪机是15cm/s，追不上高速目标；② 延迟影响：无线传输图像、中央计算机处理都有延迟，高速目标的位置变化快，延迟会导致决策“滞后”；③ 算法适应差：DDPG是在模拟器里训练的，对高速变速的真实目标，还没来得及调整动作，目标就跑远了。

问题3：这个方案能用到户外安防吗？比如景区追踪可疑无人机。

答：目前还不行，因为有局限性：① 只在室内测试过，户外的风会让无人机晃，雨会挡摄像头，强光/黄昏低光照会让YOLOv3检测不准；② 户外距离远，无线通信延迟会更大，追踪更难；但未来可以改进：比如加IMU传感器抗风，用5G降延迟，优化YOLOv3适应户外光照，改进后有希望用于户外。

问题4：YOLOv3和DDPG在方案里分别扮演什么角色？少了一个行不行？

答：不行，两者是“分工合作”的：YOLOv3是“眼睛”，负责“看到”目标在哪里，没有它就不知道目标的位置；DDPG是“大脑”，负责根据“眼睛”看到的位置，决定该怎么动（上下左右前后），没有它就不知道该怎么追。少了任何一个，追踪都无法实现。

问题5：未来要做无人机集群追踪（多架追多架），这个方案需要怎么改？

答：至少要改3点：① 检测端：YOLOv3现在只能识别“无人机”这一个类别，要加“敌友识别”功能，让无人机分清该追的目标和自己人；② 决策端：DDPG现在是“一对一”决策，要改成“多机协同决策”，避免多架无人机撞一起，或者都追同一个目标；③ 通信端：多架无人机之间要能实时共享目标位置信息，可能需要用5G或专用通信模块。

总结

该研究针对现有无人机追踪依赖多传感器、缺乏实测验证的问题，提出了单摄像头输入的YOLOv3+DDPG混合方案，通过6500张图像训练YOLOv3实现高准确率检测，用优化超参数的DDPG实现精细动作决策；在室内5个场景的实测中，最高追踪准确率达99%，验证了方案的有效性。但方案仍有局限：仅适用于室内，受硬件速度、通信延迟、光照影响较大。总体而言，该方案为低成本、单输入的无人机自主追踪提供了可行思路，后续通过硬件升级、算法优化、多传感器融合，有望扩展到户外和集群追踪场景，为安防、救援等领域的无人机应用提供更有力的技术支持。

脑启社区

脑启社区是一个专注类脑智能领域的开发者社区。欢迎加入社区，共建类脑智能生态。社区为开发者提供了丰富的开源类脑工具软件、类脑算法模型及数据集、类脑知识库、类脑技术培训课程以及类脑应用案例等资源。

更多推荐

快讯｜复旦发布全球首篇WAM系统性综述366篇论文绘制技术版图，飞捷科思自研可微分物理引擎Fysics指标超8B模型，维泛智能类脑芯片BiGPU融合ANN与SNN，Sim2Real实证：空间特征泛化远

脑启社区

EM-Core自动驾驶类脑世界模型——全域客观认知底座（V1.0 正式版）

本文档为 EM-Core 自动驾驶认知系统的核心认知底座规范，是 ECC 认知大脑开展推理、预判、决策的**唯一客观依据**。本模型与 MLNF-Mem 记忆中枢完全物理解耦，作为漏斗外侧独立挂载的外置模块（ad-44）运行，仅通过 `WM_QUERY` 标准消息向 ECC-01 情境解析模块和 ECC-03 因果推理模块提供风险向量与属性查询服务，不参与记忆晋升、遗忘或行为决策。适用于全场景自动