点击下方
卡片
,关注
「3D视觉工坊」
公众号
选择
星标
,干货第一时间送达
来源:3D视觉工坊
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入
「3D视觉从入门到精通」知识星球
(
点开有惊喜
)
,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:
近20门秘制视频课程
、
最新顶会论文
、计算机视觉书籍
、
优质3D视觉算法源码
等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0. 论文信息
标题:Locate Anything on Earth: Advancing Open-Vocabulary Object Detection for Remote Sensing Community
作者:Jiancheng Pan, Yanxing Liu, Yuqian Fu, Muyuan Ma, Jiaohao Li, Danda Pani Paudel, Luc Van Gool, Xiaomeng Huang
机构:Tsinghua University、Zhejiang University of Technology、University of Chinese Academy of Sciences、ETH Zurich、INSAIT
原文链接:https://arxiv.org/abs/2408.09110
代码链接:https://github.com/jaychempan/LAE-DINO
1. 导读
目标检测,尤其是开放词汇目标检测,在环境监测、自然灾害评估和土地利用规划等地球科学中起着至关重要的作用。然而,现有的开放词汇检测器主要在自然世界图像上训练,由于显著的数据域差距,难以推广到遥感图像。因此,本文旨在推动遥感领域开放词汇目标检测的发展。为了实现这一点,我们首先将任务重新表述为定位地球上的任何事物(LAE ),目标是检测地球上的任何新概念。然后,我们开发了LAE-Label引擎,该引擎收集、自动注释和统一多达10个遥感数据集,创建了LAE-1M -第一个大规模遥感目标检测数据集,具有广泛的类别覆盖范围。使用LAE-1M,我们进一步提出并训练了新的LAE-DINO模型,这是用于LAE任务的第一个开放词汇基础对象检测器,具有动态词汇构建(DVC)和视觉引导文本提示学习(VisGT)模块。DVC为每个训练批次动态构建词汇,而VisGT将视觉特征映射到语义空间,增强文本特征。我们在已建立的遥感基准DIOR、DOTAv2.0以及我们新推出的80级LAE-80C基准上进行了全面的实验。结果证明了LAE-1M数据集的优势和LAE-DINO方法的有效性。
2. 效果展示
定位地球上一切(LAE)旨在检测地球上的任何物体,并促进实际的检测任务,由LAE标签引擎和LAE-DINO模型提供支持。
3. 引言
作为计算机视觉领域最基本且最重要的任务之一,目标检测(OD)多年来已被广泛研究,催生了众多检测器。特别是,开放词汇目标检测(OVD)正日益受到关注。OVD放宽了传统目标检测中封闭对象类别的限制,允许在测试时检测任何新概念。在各种OVD方法中,基于DINO的检测器,如GroundingDINO,在主流OVD基准测试中近期展现出了卓越的性能。
然而,几乎所有最先进的OVD方法都是在自然世界图像上进行训练和测试的。当应用于地球科学相关任务,如环境监测、自然灾害评估、土地利用规划时,这些方法由于巨大的数据域差异而难以泛化。与自然世界图像不同,地球科学依赖于遥感图像,这些图像具有更高的分辨率、独特的图像风格以及不同的语义类别概念。这使得当前OVD模型的直接迁移变得非比寻常。因此,在本文中,我们致力于推动遥感领域的开放词汇目标检测。
为实现这一目标,我们首先将遥感领域的OVD任务重新定义为“地球定位万物”(Locate Anything on Earth,LAE)。如图1所示,我们的目标是使LAE模型能够检测地球上的任何新概念。我们的努力主要集中在两个方面:首先,开发了一个LAELabel引擎来构建大规模的遥感训练数据;其次,提出了一种新的LAE-DINO模型并进行训练,作为新提出的LAE任务的首个基础模型。
更具体地说,LAE-Label引擎旨在解决遥感领域缺乏多样化的对象级标注数据的问题,这是训练稳健基础模型不可或缺的一部分。为了充分利用现有的分散遥感数据(这些数据大致可分为标注数据和非标注数据),我们的LAE-Label引擎提出了两种截然不同的解决方案。对于标注数据集,我们重点关注通过图像切片、格式对齐和采样来统一它们,从而形成精细粒度的LAE-FOD数据集。对于非标注数据集,我们开发了一条半自动标注流水线,使用SAM这一大型视觉语言模型以及基于规则的过滤,从而生成了粗粒度的LAE-COD数据集。通过结合LAE-FOD和LAE-COD,我们最终构建了包含一百万个不同类别标注对象的LAE-1M数据集。据我们所知,LAE-1M是迄今为止类别覆盖范围最广的第一个也是最大的遥感目标检测数据集。
技术上,我们提出了基于DINO的OVD方法LAE-DINO,并在LAE-1M数据集上进行了训练。LAE-DINO的新模块旨在解决两个问题:1)如何在包含约1600个词汇的训练数据中拟合OVD模型?2)如何更好地利用图像与文本之间的关系来实现更有效的词汇条件目标检测?作为第一个问题的答案,我们提出了动态词汇构建(Dynamic Vocabulary Construction,DVC),它为每个训练批次动态选择正词汇和负词汇。而视觉引导文本提示学习(Visual-Guided Text Prompt Learning,VisGT)则是为了解决第二个问题。基于单个图像中的不同对象共同定义场景的观察,VisGT通过平均所有对象特征引入了“场景特征”的概念。通过将场景特征作为桥梁,VisGT使视觉特征与文本特征对齐,从而增强了这两种模态之间的交互。
我们在开放集和封闭集场景下进行了大量实验。比较了以不同数据为训练数据的不同模型。结果表明:1)我们提出的LAE-1M数据集显著提高了模型性能,尤其是在开放集场景下;2)我们的LAE-DINO模型取得了最先进的性能。
4. 主要贡献
我们总结主要贡献如下:
• 我们为遥感领域提出了“地球定位万物”(LAE)任务,并通过提供包含一百万个实例的LAE-1M数据为LAE铺平了道路。
• 我们为LAE提出了一种新的LAE-DINO检测器,其中动态词汇构建(DVC)和视觉引导文本提示学习(VisGT)作为新颖模块。
• 在几个不同的测试基准上的大量实验结果证明了LAE-1M数据集的优势和LAE-DINO的有效性。
5. 定位地球上的一切!
为促进遥感领域通用检测器的发展,我们首先定义了“地球定位万物”(LAE)任务,然后构建了一个数据引擎LAE-Label Engine,以构建用于学习基础LAE模型的大规模训练数据集。
任务:地球定位万物。LAE从开放词汇目标检测(OVD)任务中汲取灵感,但专为遥感领域量身定制。给定遥感图像作为输入,LAE旨在基于提供的文本提示实现稳健的对象识别和定位。LAE维护一个基础训练数据集Dbase和任何潜在的测试数据集Dtest。形式上,基础数据集表示为Dbase = {I, {(b, y)r}},其中I表示遥感图像,每张图像包含r个对象及其对应的定位标注b和类别标注y。具体来说,I定义为I ∈ R4,y是Vbase的元素,其中Vbase是Dbase中存在的词汇集。为了有效训练基础LAE模型,通常希望Vbase尽可能大。此外,我们定义VΩ为整个语言词汇集,Vtest为Dtest中的测试词汇集。与OVD(Zareian等人,2021)的基本设置一致,对Vtest没有施加任何约束,表明它可以是VΩ的任何子集。
总体而言,LAE要求模型从Dbase中学习,然后根据提供的文本提示T,为Dtest中的图像识别正确的对象定位b和类别y。
引擎:LAE-Label Engine。众所周知,训练基础模型的基本要求之一是拥有大量训练数据。因此,本文也旨在构建一个能够支持基础LAE模型训练的数据集。然而,在遥感领域,现有数据集存在以下局限性:1)人工标注的数据集规模较小,且大小和数据格式不同;2)从互联网上容易获得的大规模图像-文本对缺乏良好的标注。
为解决这两个局限性,我们提出了LAE-Label数据引擎,该引擎同时利用标注良好的数据和大量未标注数据。更具体地说,如图2(a)所示,对于标注良好的数据集,我们首先对不同数据集的巨大图像进行切片,然后统一格式。这部分生成了我们的精细粒度LAE-FOD数据集;对于未标注数据,如图2(b)所示,我们基于SAM和大型视觉语言模型(LVLM)构建了一条全面的半自动化数据构建流程。我们首先使用SAM从遥感种子数据集中提取感兴趣区域(RoI)的位置信息。种子数据集的详细信息列在表1中。接下来,我们利用LVLM(即InternVL)获得放大后的RoI区域的类别,InternVL在大量数据上学习了强大的零样本识别能力,如图2(b)所示。最后,我们使用基于规则的方法过滤掉无效和不相关的类别。通过这种方式,我们构建了粗粒度的LAE-COD数据集,为开放词汇预训练提供了丰富的词汇。
6. 实验结果
7. 总结 & 未来工作
本文介绍了在地球上定位任何事物(LAE)的任务,重点是实现遥感中的开放词汇对象检测。为了推进LAE的发展,我们专注于两个关键领域:1)数据:我们开发了LAE-LabelEngine,这是一个半自动的标签管道,可以收集和注释多达10个数据集的数据。使用LAE-LabelEngine,我们构建了LAE-1M,这是第一个大规模的遥感对象检测数据集。2)模型:我们提出了LAEDINO,这是LAE任务中一个基础性的开放词汇对象检测器,其稳健和可推广的检测能力得到了验证。我们相信,通过定义明确的任务、提供大规模的训练数据和提供基础模型,我们的工作将大大推进地球科学的应用。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球