本篇分享 AAAI2025 论文
Locate Anything on Earth: Advancing Open-Vocabulary Object Detection for Remote Sensing Community
,提出通过半自动化的方式,构建一个大规模的遥感目标检测数据集 LAE-1M,该数据集包含100万个标注实例。
-
会议:39th Annual AAAI Conference on Artificial Intelligence (CCF-A会议)
-
论文:https://arxiv.org/abs/2408.09110
-
项目:https://jaychempan.github.io/LAE-website/
-
代码:https://github.com/jaychempan/LAE-DINO
-
-
单位:清华大学,浙江工业大学,中国科学院大学,苏黎世联邦理工大学等
创新点
-
数据引擎构建:
面对当前遥感领域目标检测标注类别稀缺,开发了LAE-Label Engine,用于收集、自动标注和统一多达10个遥感数据集,为提供遥感基础模型提供可扩展数据基础。
-
数据集构建:
构建了LAE-1M数据集。LAE-1M是首个大规模遥感目标检测数据集,涵盖了广泛的类别,包含100万个标注实例。
-
模型设计:
当前多模态大模型对定位能力不准确,提出了LAE-DINO模型,这是针对遥感领域的大规模开放词汇目标检测器。
LAE-Label 数据引擎
LAE-Label Engine旨在解决遥感领域缺乏多样化、大规模标注数据的问题。LAE-Label Engine 的主要任务是通过半自动化的方式,构建一个大规模的遥感目标检测数据集 LAE-1M,该数据集包含100万个标注实例。
LAE-FOD 数据集构建
LAE-FOD 数据集是通过对现有的标注遥感数据集进行处理和统一构建的。具体步骤如下:
-
图像切片:
由于遥感图像通常分辨率较高,LAE-Label Engine 首先对这些高分辨率图像进行切片处理,将其分割为适合模型训练的小尺寸图像。
-
格式对齐:
不同数据集的标注格式可能不同,LAE-Label Engine 将这些标注格式统一为 COCO 格式,便于后续处理。
-
采样:
为了确保数据集的多样性和平衡性,LAE-Label Engine 对每个类别的实例进行随机采样,避免某些类别的实例过多或过少。
LAE-COD 数据集构建
LAE-COD 数据集是通过半自动化的方式构建的,主要利用了大模型(如SAM 和 LVLM)进行自动标注。具体步骤如下:
-
SAM(Segment Anything Model):
首先,LAE-Label Engine 使用 SAM 模型从遥感图像中提取感兴趣区域(RoI)。SAM 能够根据点或框提示精确地分割出物体的边缘,但无法识别具体的类别。
-
LVLM(Large Vision-Language Model):
接着,LAE-Label Engine 使用 LVLM(本实验主要基于开源的书生多模态大模型InternVL)对SAM 提取的 RoI 进行类别标注。LVLM 能够根据图像内容生成可能的物体类别,并提供类别的置信度。
-
规则过滤:
最后,LAE-Label Engine 通过规则过滤去除无效或低质量的标注。例如,去除单调的图像、低置信度的类别标注等。
LAE-1M 数据集
LAE-1M 数据集涵盖了广泛的类别,包含100万个标注实例。以下是 LAE-1M 数据集的具体内容:
数据集的具体内容
-
LAE-FOD 数据集:
包含来自多个现有遥感数据集的标注实例,如 DOTA、DIOR、FAIR1M、NWPU VHR-10、RSOD、Xview、HRSC2016 和 Condensing-Tower 等。这些数据集经过图像切片、格式对齐和随机采样处理后,形成了 LAE-FOD 数据集。
-
LAE-COD 数据集:
包含通过 SAM 和 LVLM 自动标注的实例,主要来自 AID、NWPU-RESISC45、SLM 和 EMS 等数据集。这些数据集经过 SAM 提取 RoI、LVLM 进行类别标注和规则过滤后,形成了 LAE-COD 数据集。
数据集的特点
-
大规模:
LAE-1M 数据集包含100万个标注实例,是迄今为止最大且类别覆盖最广的遥感目标检测数据集。
-
多样性:
LAE-1M 数据集涵盖了广泛的类别,包括飞机、船舶、车辆、建筑物、道路、机场、港口等,能够为模型提供丰富的训练数据。
-
半自动化结合:
LAE-1M 数据集通过自动化(SAM 和 LVLM)和半自动化(规则过滤)的标注方式构建,能够在保证标注质量的同时,大幅减少人工标注的工作量。
LAE-DINO开放词汇检测器
总体框架
LAE-DINO引入了两个新模块:
-
动态词汇构建(Dynamic Vocabulary Construction, DVC):
动态地为每个训练批次选择正负词汇,解决了大规模词汇集带来的训练效率问题。
-
视觉引导的文本提示学习(Visual-Guided Text Prompt Learning, VisGT):
通过将视觉特征映射到语义空间,增强文本特征,从而更好地利用图像和文本之间的关系进行目标检测。
动态词汇构建(DVC)
传统的开放词汇目标检测模型通常使用固定长度的文本编码器(如 BERT 或 CLIP),将所有类别词汇拼接成一个超长文本序列。然而,当词汇集规模较大时(如1600个类别),这种方法会导致计算效率低下,甚至超出文本编码器的最大长度限制。
-
动态词汇长度:
DVC 设置一个动态词汇长度(如60),每个训练批次只选择部分正负词汇进行训练。
-
正负词汇选择:
对于每个训练批次,DVC首先选择当前批次中的所有正类别词汇,然后从剩余的词汇集中随机选择负类别词汇,直到达到的设定的长度。
优势:
DVC 显著减少了文本编码器的计算负担,同时保留了模型对大规模词汇集的适应能力。
视觉引导的文本提示学习(VisGT)
遥感图像中的场景通常非常复杂,单一的文本提示难以充分表达图像中的语义信息。传统的开放词汇目标检测模型主要依赖文本提示来引导视觉特征,但在复杂场景中,文本提示的稀疏性和局限性可能导致检测效果不佳。
-
场景特征提取:
VisGT 首先通过平均所有正类别文本特征,生成“场景特征”(Scene Feature)。场景特征代表了图像中所有物体的整体语义信息。
-
视觉特征映射:
VisGT 使用多尺度可变形自注意力(MDSA)模块,将视觉特征映射到语义空间,生成视觉引导的文本特征。
-
模态对齐:
VisGT 将视觉引导的文本特征与原始文本特征结合,输入到 Transformer 编码器中,增强图像和文本之间的模态对齐。
VisGT 使用对比损失(Contrastive Loss)来监督视觉特征到语义空间的映射过程。具体来说,对比损失用于最小化预测的场景特征与真实场景特征之间的差异。