专栏名称: 集智书童

书童带你领略视觉前沿之美，精选科研前沿、工业实用的知识供你我进步与学习！

Elastic-DETR: 自适应多尺度图像分辨率学习以优化目标检测 !

集智书童 · 公众号 · · 2025-03-09 09:00

正文

点击下方卡片，关注「集智书童」公众号

点击加入👉 「集智书童」交流群

想要了解更多：

前沿AI视觉感知全栈知识 👉 「分类、检测、分割、关键点、车道线检测、3D视觉（分割、检测）、多模态、目标跟踪、NerF 」

行业技术方案 👉 「 AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战 👉 「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码，加入「 集智书童-知识星球 」，日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑，期待交流！

免责声明

凡本公众号注明“来源：XXX（非集智书童）”的作品，均转载自其它媒体，版权归原作者所有，如有侵权请联系我们删除，谢谢。

多尺度图像分辨率是现代目标检测器（如DETR）中的一个标准做法。这种技术允许从多种图像分辨率中获取不同尺度的信息。

然而，手动选择分辨率的超参数会限制其灵活性，这依赖于先验知识，并需要人工干预。本文提出了一种学习分辨率的新策略，称为Elastic-DETR，使多尺度图像分辨率的使用更加灵活。

作者的网络基于图像内容提供了一个紧凑的尺度预测模块（<2 G F L O P），生成可适应的尺度因子。

作者方法的关键在于如何在没有先验知识的情况下确定分辨率。

作者提出了两种源自关键组件的损失函数，用于分辨率优化：尺度损失，该损失根据图像增加适应性；分布损失，该损失基于网络性能确定整体缩放程度。

通过利用分辨率的灵活性，作者可以展示出各种模型，在准确性和计算复杂性之间表现出不同的权衡。

实验证明，作者的方案能够在不约束灵活性的情况下释放广泛图像分辨率的潜力。

作者的模型在MS Coco数据集上的最大精度提升为3.5% P或计算量减少26%，优于MS训练的DN-DETR。

1. Introduction

目标检测[49]是计算机视觉中一个基础的研究领域，它在确定物体类别的同时识别物体的位置。自然语言处理(NLP)中 Transformer 的成功应用[34]促使基于 Transformer 的网络在多种视觉应用中得到普及，包括目标检测。在这个领域中，DETR（检测器 Transformer ）[3]引入了第一个基于 Transformer 的检测器，凭借简洁的架构设计取得了卓越的性能。

与基于CNN的检测器[26, 27]不同，DETR采用了一种灵活的架构，结合了可学习的query和二分匹配机制。这种机制使得静态框分配方法，如非极大值抑制，变得不再必要，从而消除了手动选择 Anchor 点的需求。由于 Anchor 点大小在预测中作为关键参考点，这些大小必须精心选择，通常依赖于先验知识。用一种可学习的方法取代这一静态过程，可以使网络拥有更为灵活的训练空间，并减少人为干预。这一成功引发了一个重要问题：是否可以通过一种可学习策略来消除在核心超参数上依赖先验知识的必要性？在传统的网络缩放[31, 32]中，图像分辨率、深度和宽度被视为决定网络性能的关键超参数。在目标检测中，分辨率主要与先验知识相关，因为其与目标尺度分布有关[24, 29]。多尺度(MS)方法[22]，利用多种图像分辨率，已成为现代目标检测器的标准方法之一。这种方法通过从预定义的超参数集合中随机选择图像分辨率来确定分辨率，从而可以获得不同尺度的信息。然而，依赖预定义的参数可能会限制分辨率的灵活性，因为这些值需要手动选择。这一手动过程往往要求对数据分布有深刻的理解或经过大量的尝试，这在实际应用中带来了较大的负担。如果以可学习的方式优化分辨率，网络可以动态适应各种数据分布，使其具备弹性和高效的特点。

为了探索这一潜力，作者首先集中研究分辨率的变化如何影响网络性能，以确立可学习分辨率的优化目标。图1展示了在网络不同超参数配置下，分辨率变化对网络响应的影响。作者可以观察到随着分辨率的提高，准确率有所提升，但分辨率超过800后，准确率的提升幅度非常小。随机化的策略在处理广泛的超参数时不够高效，这为提高性能提供了更多的可能性。此外，在测试时应用随机方法会导致性能下降约1-2%，这表明适应性并没有有效地转移到测试阶段，体现了随机性的局限性。有关此实验的更多分析详见Sec. A.1。

基于这些观察，作者的目标可以定义如下：

1）可学习性，2）消除对先验知识的依赖，3）处理广泛谱系的能力，以及4）测试中的适用性。为了实现这些目标，作者提出了一种新型方法Elastic-DETR，该方法以可学习的方式优化图像分辨率。如图3所示，作者的网络生成一个用于分辨率缩放的图像 Level 尺度因子。作者使用一个紧凑型网络，称为尺度预测器，来生成从指定最小值到最大值范围内的尺度因子。这个尺度因子是根据图像信息内容特定地获取的，具有适应性。此紧凑型网络与检测器联合训练，有助于端到端的训练和测试机制。

作者方法的主要挑战是在没有先验信息的情况下确定图像分辨率。

最初，作者从人类行为中识别出分辨率确定的关键组成部分：为了观察难以看到的目标，作者会根据物体的大小和视觉敏锐度调整自己的位置。作者提出了一种基于这些元素的比例因子优化损失函数：尺度损失用于基于大小的优化，分布损失则用于基于检测能力的优化。尺度损失通过调整比例因子使其适应目标的大小来提高其可调性。在这个过程中，这一优化是基于两个尺寸边界之间的相对大小来决定的，这两个边界分别对应导致最大值或最小值的尺寸范围。分布损失则通过对描述网络在特定尺度下检测能力的概率分布进行优化来优化这些边界。

如图2所示，作者的网络在图像分辨率增加时表现出单调的准确性提升。通过利用分辨率的灵活性，作者展示了各种网络，在MS COCO [17]数据集上，这些网络的最大收益为3.5个百分点或计算量减少了26%。

作者的主要贡献总结如下：

作者提出了一种新的可学习图像分辨率策略，使得可以灵活地利用多种分辨率。该策略提供了一种通用方案，以学习的方式优化超参数，从而为网络优化提供了见解；
作者建立了紧凑的尺度因子架构，允许自适应且内容特定的预测。
作者提出了新型的损失函数来进行优化，而不依赖先验知识，这些损失函数基于人类行为特征化的组件定义而成；
根据作者所知，这是第一次在DETR基网络中优化图像分辨率的尝试。作者实验证明，作者的方案能够释放宽范围图像分辨率的潜力，实现了高达3.5个百分点的提升。

2. Related Work

2.1. Hyperparameter Optimization

如前所述，深度、宽度和图像分辨率被认为是经典扩展定律中的关键组成部分[31, 32]。通常，这些参数通过参数搜索[6, 7, 31]或手动设计比例方案[32, 42]来进行优化。另一种方法是动态神经网络[12]，它能够进行动态调制，从而在运行时优化参数。

分层早期退出[38]或级联多个网络[20, 25]允许处理可变深度。在基于CNN的网络中，信道级 Shortcut [13, 16]可通过执行关键信道来实现动态宽度调整。对于分辨率优化，在图像分类中提出了分支级动态选择[41, 47]来处理各种分辨率。这些优化方案主要利用架构调制，预测定义架构组件的执行概率。而作者策略则是仅指定一个范围来预测此类定义组件。

2.2. Transformers for Object Detection

传统的目标检测器包含全卷积层，并且往往采用多尺度架构[18, 46]。DETR[3]引入了一种基于Transformer的目标检测器，通过使用单尺度编码解码架构实现了显著的性能提升。尽管取得了显著进展，但仍然存在一些限制，例如对小目标容量有限或在训练过程中收敛速度较慢。为了应对这些挑战，提出了多种方法，包括引入多尺度特征或优化目标 Query。动态网络被提出以通过动态调制[8]或动态 Query 设计[14, 21]来缓解这些限制。作者提出的策略也采用了一种动态图像分辨率的方法，从而缓解了小目标的问题。

此外，作者的策略还解决了对先验超参数知识依赖的问题。

3. Methodology

3.1. Overview

整体流程。弹性-DETR利用了一个基于DETR的检测器，并引入了一个尺度预测器来确定图像特定的尺度因子。如图3所示，尺度预测器被作为模块化组件附加到检测网络之前，以实现自适应分辨率缩放。网络接收输入图像并生成一个尺度因子，这可以表示为。

通过缩放操作调整图像分辨率，该操作将图像的宽度和高度分别调整为和。然后，缩放后的图像被送入检测器以从输入图像预测框的位置和类别。整个过程可以表示为，

在缺乏预测器的情况下，检测器会直接预测输出为。训练目标方面，请注意，尺度预测器只优化输入图像，并与检测网络联合训练。现有检测器的损失函数，即分类损失和定位损失，间接地帮助获取一个最大化性能的尺度因子。然而，由于缺乏针对分辨率确定的调制，这些损失无法在整个尺度因子范围内提供适应性。这是因为，不同于依赖于分支选择的方法，作者旨在独立地优化尺度因子，不依赖任何先前的架构知识。在这个过程中，如第 1 节所述，尺度因子通过两个新定义的损失函数进行优化：尺度损失，增强图像特定的适应性；分布损失，细化尺度因子的整体偏差。这两个函数允许尺度因子被训练以最大化网络性能，使其基于检测能力进行图像特定的调整。

3.2.Architecture of Scale Predictor

对于尺度因子预测，作者构建了预测器 ( s ) 的架构，包含两个主要组件：一个 Backbone 网络用于分析图像的视觉属性，以及 Head 层用于预测尺度因子。ResNet-18 [36]，这是一种广为人知的轻量级分类网络，被用作 Backbone 网络。为了处理 Head 层，从 Backbone 网络提取的特征被矢量化为一维向量。

随后，一个紧凑的Transformer编码器，接着是一个全连接层，用于预测给定图像的一个单一尺度因子。此编码器块的应用旨在增强尺度因子的适应性，该块由三个集成单头自注意力机制的层组成。

预测完成后，每个图像的原始尺度因子被获取，并使用Sigmoid激活函数进行归一化，随后通过取最大值操作限制在期望范围内。

这一操作表示为，其中和分别表示最小和最大阈值。最终的尺度因子包含在和之间的一个范围内，这些参数可以在准确性和推理效率之间进行调整。尺度预测网络的计算和内存开销总结在表1中。

3.3. Loss Functions for Scale Factor Optimization

3.3.1.Scale Loss

如前所述，作者定义了尺度损失来优化基于物体大小的比例因子，对小物体使用较高比例因子，对大物体使用较低比例因子。作者打算从概率的角度优化这个比例因子，通过引入一个上尺度概率。这个概率表示物体的上尺度程度，它与物体大小之间存在相同的反比关系。

这种关系使得可以从这种概率中优化得出的尺度因子得到优化，这是通过修改尺度因子来实现的。作者建立了这种修改方式，即将的最大值进行归一化处理，并将的最小值映射到，这可以表示为，其中。然后，尺度因子的优化问题可以被解释为单一概率的优化问题。

处理单概率问题通常是指二分类问题，该问题将概率调整为0或1。这种优化通过使用二元交叉熵（BCE）损失[11]来实现，其公式表示为：

其中，和