本文介绍了DAT,首个室外无人机主动跟踪基准,用于评估智能体在开放世界主动跟踪任务上的跨场景跨域能力。实验结果表明,现有的视觉主动跟踪模型在复杂场景中的特征提取能力有限,且其感知范围和应用场景受限于固定前向视角。本文深入分析并理论证明了固定前向视角的局限性,并提出了基于强化学习的R-VAT模型。该模型能适应可变视角,实验证明了其高度有效性。
论文标题:
A Cross-Scene Benchmark for Open-World Drone Active Tracking
论文链接:
https://arxiv.org/pdf/2412.00744
源码链接:
https://github.com/SHWplus/DAT_Benchmark
文档链接:
https://dat-benchmark.tech
主页链接:
https://dat-benchmark.framer.website/
一、引言
图1:DAT基准的场景示例图
1.1 什么是视觉主动跟踪?
视觉主动
跟
踪
是一种基于视觉观测,控制观测系统运动,从而实现自动跟踪物体的任务设定。相比之下,
被动视觉跟踪
则是在固定相机位姿的情况下,逐帧主动预测目标边界框。视觉跟踪被广泛用于现实场景,例如:安保巡检和无人机跟踪拍摄等。
视觉主动跟踪方法主要分成
两阶段VAT方法
和
基于强化学习的VAT方法
,两阶段VAT利用目标跟踪模型预测物体位置,再利用控制模型生成控制信号。该方法主要受限于大量的人力标注成本以及跨场景时控制模型的参数调校。而基于强化学习的VAT方法则是利用强化学习算法,直接根据图像输出控制信号,具有较好的适应性。
1.2 基于强化学习的视觉主动跟踪智能体
最近,强化学习算法被越来越多地用于VAT任务,智能体在仿真环境中利用强化学习算法进行数据采集和模型训练。尽管近期提出的强化学习方法在对应的仿真环境中初步验证了强化学习在VAT任务上的可行性,但仍面临三大局限:(1)
缺乏统一的基准
。当前的仿真环境范围小,复杂度低,数量有限,无法充分验证智能体的能力。且现有环境提供的跟踪器和目标数量有限,无法为不同任务提供基准。(2)
对具有复杂干扰的大型环境适应能力差
。开放世界视觉主动跟踪涉及大范围高动态环境,以及频繁的环境干扰。直接在复杂环境进行训练常常导致收敛速度慢,跟踪鲁棒性差的问题。(3)
对行为多样的跟踪目标适应能力差
。现有方法假设跟踪器采用固定水平前向视角,显著限制跟踪器感知范围,且导致奖励函数在视角变化时无法准确反映跟踪性能。
1.3 统一的无人机视觉主动跟踪智能体
统一的无人机视觉主动跟踪基准
。DAT基准提供了6个场景4种天气共24个大范围高复杂度的仿真场景(见图1)。24个场景可以充分验证智能体跨场景和跨域适应的能力。此外,DAT提供了两种跟踪器,5大类共24种常见跟踪目标,且提供了即插即用的接口,可供用户自主配置模型和控制器。此外,DAT基准利用webots仿真软件搭建,具有真实的动力学仿真性能,并使用SUMO交通仿真软件管理目标行为,提供多样的目标路径和行为。
基于强化学习的视觉主动跟踪新方法
。我们提出了基于强化学习的主动视觉跟踪方法。具体而言,我们设计了基于课程学习的训练策略,逐步提升智能体在大型复杂场景中的性能。此外,我们设计了以目标为中心的奖励函数,在不同视角下给智能体提供准确的跟踪性能评估。与现有方法基于物理距离的奖励函数设计不同,我们在图像平面进行奖励设计,避免距离图像中心更远的目标获得更高的奖励。
图2:无人机视觉主动跟踪流程
二、DAT Benchmark构建
图3:DAT基准统计信息与元素示例图
2.1 多样场景构建
DAT基准提供的6种场景分别为:城镇(Citystreet),乡村(Village),大都市(Downtown),湖泊水域(Lake),农田(Farmland)和沙漠(Desert)。本文从
区域面积
,
楼房密度
,
颜色丰富度
,
道路密度
,
复杂地形密度
,
树木密度
和
隧道密度
七个方面建模现实场景的复杂度(6个环境的复杂度统计见图3(a))。其中,区域面积,楼房密度和色彩丰富度主要影响视觉背景信息;道路密度和复杂地形密度主要影响跟踪目标的行为,而树木密度和隧道密度则主要影响环境元素对跟踪目标的遮蔽程度。此外,DAT基准提供的四种天气包括晴天(day),黑夜(night),雾天(foggy)和雪天(snow)。其中,黑夜降亮度和光照均匀度,雾天降低视野能见度,雪天改变环境色调。
2.2 多样跟踪器和目标构建
本文提供了无人机和地面机器人作为备选的跟踪器,其中,无人机选择DJI Matrice 100作为默认机型。此外,DAT提供了
6种常用的运动和视觉传感器
(见图3(c)),包括相机,雷达,GPS,IMU,陀螺仪和加速度计。同时,DAT也提供了汽车,摩托车,行人,轮式机器人和足式机器人
5类共24种常见的跟踪目标
(见图3(d)),并提供了即插即用的接口可供用户更换自主设计的机器人模型和控制器。为建模真实场景下跟踪目标运行的随机性,DAT使用SUMO随机化跟踪目标种类和外观,并统一对其路径和行为进行管理。
三、R-VAT基线模型
3.1 基于课程学习的训练策略
本文利用强化学习PPO算法并设计了基于课程学习的训练策略,逐步提升智能体的性能,加快收敛速度。具体而言,课程学习分成两个阶段,在第一阶段中,跟踪目标的轨迹为直线,且环境中不存在遮蔽和复杂的干扰情况,智能体学习将目标保持在图像中心的任务意图。而在第二阶段中,智能体在视觉复杂,跟踪目标轨迹多样的情况下训练,基于第一阶段的任务理解,提升智能体的视觉泛化能力。
3.2 以目标为中心的奖励函数设计
图4:以目标为中心的奖励示意图
为准确反映在可变俯视视角下智能体的跟踪性能,本文提出了以目标为中心的奖励函数设计方法。与现有方法直接利用物理距离不同,本文获取了图像平面在地平面上的投影,并在图像层面进行奖励函数设计,确保距离图像中心更远的目标获得更高的奖励。具体而言,本文设计的奖励函数表达式为:
其中,x参数用于衡量目标点距离图像中心的远近。为进一步说明上述奖励函数的设计过程,我们提供了
详细的坐标变换推导
(具体见原论文4.3节)。此外,为了阐述本文以目标为中心的奖励设计的优越性以及基于固定前向视角设计下,利用物理距离进行奖励设计的局限性,本文理论证明了
在固定前向视角下,基于距离的奖励函数设计与本文的设计等效
。此外,我们还证明了
在视角发生变化时,基于距离的奖励函数在x和y方向均无法正确反映跟踪性能
。详细证明见原论文附录C.1节。
四、
实验
4.1 实验设定
本文对比了我们提出的R-VAT与现有最佳方法在
场景内
,
跨场景
以及
跨域测试
下的跟踪性能。具体而言,本文选择以6种场景的day天气作为训练场景,则场景内测试则是在训练场景中进行测试;跨场景测试是在其余的5种场景,相同天气情况下进行测试,而跨域测试则是在相同的场景,其余3种不同的天气情况下进行测试。本文选择使用
累计奖励(CR)
和
跟踪成功率(TSR)
衡量智能体的性能,其中,CR衡量智能体将目标保持在图像中心点的性能,而TSR衡量智能体将目标保持在图像范围中的能力。
4.2 实验结果
表1:场景内和跨场景测试实验结果表(注:CR最大值为375)
场景内测试性能
。本文提出的R-VAT模型相对于D-VAT模型在CR指标上提升
,在TSR指标提升
。
跨场景测试性能
。本文提出的R-VAT模型相对于D-VAT模型在CR指标上平均提升
,在TSR指标上平均提升
。
表2:跨域测试实验结果表(注:CR最大值为375)
跨域测试性能
。本文提出的R-VAT模型相对于D-VAT模型在CR指标上平均提升
,在TSR指标上平均提升
。
五、结论与潜在影响
本文提出了针对无人机视觉主动跟踪任务的统一基准DAT,可用于测试智能体的跨域和跨场景性能。DAT基准提供了24个大型复杂的室外场景地图,建模了高保真的机器人动力学模型,并使用了真实的跟踪目标管理方案。此外,本文提出了强化学习的基准算法R-VAT。具体而言,该方法采用了课程学习训练策略,提升智能体在复杂环境中的性能;同时,我们设计了以目标为中心的奖励函数,准确反映跟踪器跟踪性能。实验表明,R-VAT方法性能显著优于现有最好的VAT方法。
DAT基准旨在推动无人机视觉主动跟踪研究的发展,其可能对以下关键领域产生重要的影响:(1)
强化学习中的遗忘问题
,(2)
强化学习的鲁棒性问题
,(3)