ICLR'25 | 低算力，高精度！DEAL-YOLO如何用69%更少参数实现无人机卓越检测？

3D视觉工坊 · 公众号 · · 2025-03-10 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0.这篇文章干了啥？

这篇文章提出了一种新型的目标检测方法 DEAL-YOLO ，专门优化 无人机(UAV)影像中的动物检测 。该方法结合 归一化Wasserstein距离 （用于建模边界框）、 Wise IoU （降低几何变形影响）、 SSFF模块 （提升多尺度特征融合）、 线性可变形（LD）卷积 （适应目标形变）以及 两阶段推理策略 （提升低置信度目标的检测精度），在减少 68%-69.59% 计算参数的同时，实现了 优于现有YOLO模型 的检测精度。在WAID和BuckTales数据集上的实验表明，该方法在减少计算负载的同时提升了检测性能，使其成为 高效、轻量级、适用于无人机环境的动物检测方案 。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目：DEAL-YOLO: DRONE-BASED EFFICIENT ANIMAL LOCALIZATION USING YOLO

作者：Aditya Prashant Naidu,Hem Gosalia等

作者机构：Manipal Institute of Technology等

论文链接：https://arxiv.org/pdf/2503.04698

2. 摘要

尽管深度学习和空中监视技术的进步正在推动野生动物保护工作的发展，但复杂且不可预测的环境条件仍然带来挑战，需要创新的解决方案来实现成本效益更高的小动物检测。本研究提出了 DEAL-YOLO，一种新颖的方法，通过采用 Wise IoU (WIoU) 和归一化Wasserstein距离 (NWD) 等多目标损失函数来提升无人机 (UAV) 图像中的小目标检测能力。这些损失函数优先考虑目标边界框中心附近的像素，从而实现更平滑的定位并减少突发偏差。

此外，该模型通过线性可变形 (LD) 卷积进行高效特征提取，在保持计算效率的同时提升检测精度。缩放序列特征融合 (SSFF) 模块进一步增强目标检测能力，有效捕捉尺度间的关系，优化多尺度特征融合，从而提升特征表示能力并改进检测指标。与基线模型的比较表明，与原始 Yolov8-N 相比，该方法可减少 69.5% 的参数量，同时保持较高的检测性能，证明了所提出改进方案的稳健性。推荐课程：零基础入门四旋翼建模与控制(MATLAB仿真)[理论+实战] 。

通过该方法，我们希望促进濒危物种检测、动物种群分析、生境监测、生物多样性研究等多种应用，以推动野生动物保护工作。DEAL-YOLO 采用两阶段推理目标检测策略，针对选定区域进行优化，以提高目标定位精度和置信度，尤其能增强对目标分数较低的小型实例的检测性能。

3. 效果展示

WAID和BuckTales数据集的定性结果。地面实况标注以蓝色显示，单阶段推理预测以红色显示，两阶段推理预测以绿色显示。左列表示Ground Truth边界框，中间列表示使用标准推理的DEAL-YOLO，右列表示两阶段推理的结果。

4. 主要贡献

YOLOv8 的优化与重构：

引入高效的卷积模块和优化的下采样策略，在显著降低计算复杂度的同时，保持高检测性能。
低计算负载下的 SOTA 性能：
在检测精度显著提升的同时，训练参数量减少 69.6%，优化了计算效率与检测性能，展现了在真实场景中的应用潜力。

两阶段推理策略：

提出了一种自适应的两阶段区域兴趣 (RoI) 推理方法，在复杂环境下优化边界框预测，增强对微小目标的精细区分能力。
该方法实现了平均 Precision 提升 4%，Recall 提升 4.2%，有效提升检测性能。

5. 基本原理是啥？

DEAL-YOLO 的基本原理是结合了多种先进的技术来提升无人机影像中动物检测的性能：

改进的损失函数 ：
DEAL-YOLO 使用了 归一化Wasserstein距离 ，将边界框建模为2D高斯分布，并通过衡量预测框与真实标签之间的相似度，来更好地进行边界框的回归。该方法通过对靠近中心的像素赋予更大权重，适应了空中物体通常较小的特点，并引入平滑性来减少边界框偏差。
Wise IoU度量 ：
引入了 Wise IoU度量 ，它通过对几何变化（如距离和纵横比的差异）进行加权惩罚，来减少低质量示例的影响。这种自适应加权机制特别适合无人机应用，帮助检测因高度变化而产生的不同尺度的物体。
SSFF模块（多尺度信息融合） ：
在YOLO框架下，采用了 SSFF模块 来增强多尺度信息的提取。传统的特征融合方法（如简单相加或拼接）往往无法有效捕捉复杂的尺度关系。SSFF模块通过归一化、上采样并拼接多尺度特征，形成一个3D卷积结构，能够有效处理不同尺寸、不同方向和不同纵横比的物体。
线性可变形卷积（LD卷积） ：
引入 LD卷积 ，通过动态调整卷积核来适应局部特征的变化，从而更好地处理空中影像中的几何变形和不规则形状。这有助于提升对复杂物体的特征提取能力，并减轻计算负担。
两阶段推理策略 ：
DEAL-YOLO 采用了创新的 两阶段推理策略 ，首先在全分辨率图像上进行初步检测，之后对低置信度检测进行自适应区域裁剪和精细调整，以提高最终检测结果的置信度。这种方法通过集中精力改进最不确定的检测，从而提高了整体检测精度。