性能完爆YOLO！基于Transformer的目标检测新SOTA！

AI算法科研paper · 公众号 · · 2025-02-16 19:08

正文

还记得百度的实时端到端目标检测算法RT-DETRv3吗？性能&耗时完爆YOLOv10！ RT-DETRv3基于Transformer设计，属于代表模型DETR的魔改进化版。这类目标检测模型都有着强大的扩展性与通用性，因为Transformer模型的结构可以根据具体任务进行调整和优化，非常适合应对不同的检测需求和场景。

更绝的是，Transformer拥有强大的全局上下文建模能力和并行计算能力，能精准捕捉图像中的信息，显著提高目标检测的效率。因此 用Transformer做目标检测也是CV领域重要的研究热点，而且这方法也为目标检测技术的不断发展提供了更多的创新思路。

为了帮助论文er们快速找到idea，我这边整理好了 11篇 Transformer+目标检测论文 供大家参考，基本都是最新且有代码，有需要的同学可无偿获取~

扫码添加小享， 回复“ 目标T ”

免费获取 全部论文+开源代码

RT-DETRv3: Real-time End-to-End Object Detection with Hierarchical Dense Positive Supervision

方法： 论文介绍了一个名为 RT-DETRv3 的实时端到端目标检测算法，它基于 Transformer 架构。RT-DETRv3 是 RT-DETR 系列的最新版本，通过引入多层次的密集正样本辅助监督方法来提高模型的训练效果和检测性能。实验证明RT-DETRv3在速度和准确性之间取得了很好的平衡，超越了现有的实时检测器。

创新点：

提出多重一对多辅助密集监督模块，应用于RT-DETR的编码器和解码器，在训练阶段加速收敛并提升整体性能。
引入自注意力扰动模块，通过多组查询的多样化标签分配，增强解码器的监督。
采用共享权重解码器分支进行密集正样本监督，确保每个地面真值有更多高质量的匹配查询。

Towards sar automatic target recognition multicategory sar image classification based on light weight vision transformer

方法： 论文提出了一种基于轻量级视觉Transformer的模型，用于合成孔径雷达图像的自动目标识别。模型架构包括Transformer编码器和MLP，能够有效分类不同目标。实验表明，LViT能够有效识别三种装甲运兵车及其他车辆，准确率超过95.97%。

创新点：

引入了一种基于轻量级视觉transformer的模型用于合成孔径雷达（SAR）图像分类。
提出了关注全局模式的识别方法，在SAR图像分类中不仅提高了结果的准确性，还增强了模型的稳健性。
LViT模型具有层次可扩展性，可以应用于更大场景的数据集或更复杂的SAR图像分类任务。

扫码添加小享， 回复“

性能完爆YOLO！基于Transformer的目标检测新SOTA！

正文

RT-DETRv3: Real-time End-to-End Object Detection with Hierarchical Dense Positive Supervision

Towards sar automatic target recognition multicategory sar image classification based on light weight vision transformer

请到「今天看啥」查看全文