专栏名称: 我爱计算机视觉
关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习,QQ群:928997753,52CV君个人账号:Your-Word。
目录
相关文章推荐
每日豆瓣  ·  强烈推荐姐妹们多读一些历史和政治的书籍 ·  2 天前  
中国城市规划  ·  读城 | ... ·  2 天前  
中国城市规划  ·  城市更新大家谈 | ... ·  2 天前  
每日经济新闻  ·  连续跳水!特朗普紧急回应 ·  2 天前  
51好读  ›  专栏  ›  我爱计算机视觉

AAAI25|Locate Anything on Earth: 半自动化构建LAE-1M数据集,推动遥感开放词汇目标检测新突破

我爱计算机视觉  · 公众号  ·  · 2025-02-25 15:53

正文




关注公众号,发现CV技术之美




本篇分享 AAAI2025 论文 Locate Anything on Earth: Advancing Open-Vocabulary Object Detection for Remote Sensing Community ,提出通过半自动化的方式,构建一个大规模的遥感目标检测数据集 LAE-1M,该数据集包含100万个标注实例。

  • 会议:39th Annual AAAI Conference on Artificial Intelligence (CCF-A会议)
  • 论文:https://arxiv.org/abs/2408.09110
  • 项目:https://jaychempan.github.io/LAE-website/
  • 代码:https://github.com/jaychempan/LAE-DINO
  • 年份:2025
  • 单位:清华大学,浙江工业大学,中国科学院大学,苏黎世联邦理工大学等

创新点

  • 数据引擎构建: 面对当前遥感领域目标检测标注类别稀缺,开发了LAE-Label Engine,用于收集、自动标注和统一多达10个遥感数据集,为提供遥感基础模型提供可扩展数据基础。
  • 数据集构建: 构建了LAE-1M数据集。LAE-1M是首个大规模遥感目标检测数据集,涵盖了广泛的类别,包含100万个标注实例。
  • 模型设计: 当前多模态大模型对定位能力不准确,提出了LAE-DINO模型,这是针对遥感领域的大规模开放词汇目标检测器。

LAE-Label 数据引擎

LAE-Label Engine旨在解决遥感领域缺乏多样化、大规模标注数据的问题。LAE-Label Engine 的主要任务是通过半自动化的方式,构建一个大规模的遥感目标检测数据集 LAE-1M,该数据集包含100万个标注实例。

LAE-FOD 数据集构建

LAE-FOD 数据集是通过对现有的标注遥感数据集进行处理和统一构建的。具体步骤如下:

  1. 图像切片: 由于遥感图像通常分辨率较高,LAE-Label Engine 首先对这些高分辨率图像进行切片处理,将其分割为适合模型训练的小尺寸图像。
  2. 格式对齐: 不同数据集的标注格式可能不同,LAE-Label Engine 将这些标注格式统一为 COCO 格式,便于后续处理。
  3. 采样: 为了确保数据集的多样性和平衡性,LAE-Label Engine 对每个类别的实例进行随机采样,避免某些类别的实例过多或过少。

LAE-COD 数据集构建

LAE-COD 数据集是通过半自动化的方式构建的,主要利用了大模型(如SAM 和 LVLM)进行自动标注。具体步骤如下:

  1. SAM(Segment Anything Model): 首先,LAE-Label Engine 使用 SAM 模型从遥感图像中提取感兴趣区域(RoI)。SAM 能够根据点或框提示精确地分割出物体的边缘,但无法识别具体的类别。
  2. LVLM(Large Vision-Language Model): 接着,LAE-Label Engine 使用 LVLM(本实验主要基于开源的书生多模态大模型InternVL)对SAM 提取的 RoI 进行类别标注。LVLM 能够根据图像内容生成可能的物体类别,并提供类别的置信度。
  3. 规则过滤: 最后,LAE-Label Engine 通过规则过滤去除无效或低质量的标注。例如,去除单调的图像、低置信度的类别标注等。

LAE-1M 数据集

LAE-1M 数据集涵盖了广泛的类别,包含100万个标注实例。以下是 LAE-1M 数据集的具体内容:

数据集的具体内容

  1. LAE-FOD 数据集: 包含来自多个现有遥感数据集的标注实例,如 DOTA、DIOR、FAIR1M、NWPU VHR-10、RSOD、Xview、HRSC2016 和 Condensing-Tower 等。这些数据集经过图像切片、格式对齐和随机采样处理后,形成了 LAE-FOD 数据集。
  2. LAE-COD 数据集: 包含通过 SAM 和 LVLM 自动标注的实例,主要来自 AID、NWPU-RESISC45、SLM 和 EMS 等数据集。这些数据集经过 SAM 提取 RoI、LVLM 进行类别标注和规则过滤后,形成了 LAE-COD 数据集。

数据集的特点

  1. 大规模: LAE-1M 数据集包含100万个标注实例,是迄今为止最大且类别覆盖最广的遥感目标检测数据集。
  2. 多样性: LAE-1M 数据集涵盖了广泛的类别,包括飞机、船舶、车辆、建筑物、道路、机场、港口等,能够为模型提供丰富的训练数据。
  3. 半自动化结合: LAE-1M 数据集通过自动化(SAM 和 LVLM)和半自动化(规则过滤)的标注方式构建,能够在保证标注质量的同时,大幅减少人工标注的工作量。

LAE-DINO开放词汇检测器

总体框架

LAE-DINO引入了两个新模块:

  1. 动态词汇构建(Dynamic Vocabulary Construction, DVC): 动态地为每个训练批次选择正负词汇,解决了大规模词汇集带来的训练效率问题。
  2. 视觉引导的文本提示学习(Visual-Guided Text Prompt Learning, VisGT): 通过将视觉特征映射到语义空间,增强文本特征,从而更好地利用图像和文本之间的关系进行目标检测。

动态词汇构建(DVC)

传统的开放词汇目标检测模型通常使用固定长度的文本编码器(如 BERT 或 CLIP),将所有类别词汇拼接成一个超长文本序列。然而,当词汇集规模较大时(如1600个类别),这种方法会导致计算效率低下,甚至超出文本编码器的最大长度限制。

  1. 动态词汇长度: DVC 设置一个动态词汇长度(如60),每个训练批次只选择部分正负词汇进行训练。
  2. 正负词汇选择: 对于每个训练批次,DVC首先选择当前批次中的所有正类别词汇,然后从剩余的词汇集中随机选择负类别词汇,直到达到的设定的长度。

优势: DVC 显著减少了文本编码器的计算负担,同时保留了模型对大规模词汇集的适应能力。

视觉引导的文本提示学习(VisGT)

遥感图像中的场景通常非常复杂,单一的文本提示难以充分表达图像中的语义信息。传统的开放词汇目标检测模型主要依赖文本提示来引导视觉特征,但在复杂场景中,文本提示的稀疏性和局限性可能导致检测效果不佳。

  1. 场景特征提取: VisGT 首先通过平均所有正类别文本特征,生成“场景特征”(Scene Feature)。场景特征代表了图像中所有物体的整体语义信息。
  2. 视觉特征映射: VisGT 使用多尺度可变形自注意力(MDSA)模块,将视觉特征映射到语义空间,生成视觉引导的文本特征。
  3. 模态对齐: VisGT 将视觉引导的文本特征与原始文本特征结合,输入到 Transformer 编码器中,增强图像和文本之间的模态对齐。

VisGT 使用对比损失(Contrastive Loss)来监督视觉特征到语义空间的映射过程。具体来说,对比损失用于最小化预测的场景特征与真实场景特征之间的差异。







请到「今天看啥」查看全文