遥感大模型:包含视觉遥感基础模型和视觉-语言遥感基础模型
| github:
https://github.com/RS-GISer/Awesome-Remote-Sensing-Large-Model
视觉-语言遥感基础模型
Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate
| 2024-arxiv.
| Paper:
https://arxiv.org/abs/2410.07167
| github(code):
https://github.com/shikiw/Modality-Integration-Rate
介绍:
本文提出了模态整合率
MIR
,从分布距离的角度衡量
LVLMs
的预训练质量,具有高效性,对数据样本具有鲁棒性,对模型结构及训练方法泛化性。同时提出了一个轻量级的、可学习的视觉
tokens
校准模块
MoCa
,旨在增强视觉
tokens
与文本
tokens
的对齐。
EarthGPT: A Universal Multi-modal Large Language Model for Multi-sensor Image Comprehension in Remote Sensing Domain
| 2024-TGRS
| Paper:
https://ieeexplore.ieee.org/document/10547418
| github(no code):
https://github.com/wivizhang/EarthGPT
介绍:
EarthGPT
本文提出了一种名为EarthGPT
的先驱
MLLM
,它将各种多传感器遥感解释任务统一集成在一起,以实现通用的遥感图像理解。首先,
构建了一种视觉增强感知机制
,以细化和整合粗尺度语义感知信息和细尺度细节感知信息。其次,
提出了一种跨模态相互理解方法
,旨在增强视觉感知和语言理解之间的相互作用,加深对视觉和语言内容的理解。最后,
提出了一种用于遥感领域多传感器多任务的统一指令调整方法
,以统一包括场景分类、图像字幕、区域级字幕、视觉问答
(VQA)
、视觉基础和物体检测在内的广泛任务。更重要的是,构建了
大规模多传感器多模态遥感指令跟踪数据集
MMRS-1M
,该数据集基于现有的
34
个多样化遥感数据集,包含超过
100
万个图像
-
文本对,包括光学、合成孔径雷达(
SAR
)和红外等多传感器图像。
MMRS-1M
数据集解决了
MLLM
在遥感专家知识方面的缺陷,并促进了
MLLM
在遥感领域的发展。我们进行了大量的实验,证明了
EarthGPT
在各种
RS
视觉解释任务中的表现优于其他专业模型和
MLLM
,证明了所提出的
EarthGPT
的有效性,并为开放集推理任务提供了通用范例。
RS5M: A Large Scale Vision-Language Dataset for Remote Sensing Vision-Language Model
| 2024-TGRS
| Paper:
https://ieeexplore.ieee.org/document/10679571
| code:
https://github.com/om-ai-lab/RS5M
介绍:
在本文中,我们提出了一个包含领域预训练视觉语言型
(DVLM)
的新框架,弥合了通用视觉语言模型
(GVLM)
与领域特定下游任务之间的差距。此外,我们提出了一个
遥感
(RS)
领域的图文配对数据集
RS5M
,其中包含
500
万张带有英文描述的遥感图像
。该数据集是通过使用预训练的
VLM
筛选公开可用的图像文本配对数据集和仅带标签的
RS
数据集而获得的。这些数据集构成了第一个大规模
RS
图像文本配对数据集。此外,我们对
CLIP
模型进行了微调,并在
RS5M
上尝试了几种参数高效的微调方法来实现
DVLM
。实验结果表明,我们提出的数据集对各种任务都非常有效,并且我们的模型
GeoRSCLIP
在零样本分类
(ZSC)
中比基线或之前最先进的模型提高了
3%∼20%
,在遥感跨模态文本图像检索
(RSCTIR)
中提高了
3%∼6%
,在语义定位
(SeLo)
任务中提高了
4%∼5%
。
GeoChat:Grounded Large Vision-Language Model for Remote Sensing
| 2024-CVPR
| Paper:
https://arxiv.org/abs/2311.15826
| code:
https://github.com/mbzuai-oryx/geochat)
介绍:
提出了GeoChat,
第一个多功能遥感
VLM
,它提供
高分辨率
RS
图像的多任务对话功能
。具体来说,
GeoChat
不仅可以回答图像级查询,还可以接受区域输入以进行区域特定对话。此外,它可以通过参考对象的空间坐标在其响应中直观地定位对象。为了解决缺乏特定领域数据集的问题,我们通过扩展现有多样化
RS
数据集中的图像
-
文本对,生成了一个新的
RS
多模态指令跟踪数据集
。我们为
RS
多任务对话建立了一个全面的基准,并与许多基线方法进行了比较。
GeoChat
在各种
RS
任务上展示了强大的零样本性能,例如图像和区域字幕、视觉问答、场景分类、基于视觉的对话和指称检测。
Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment
| 2023
| Paper:
https://arxiv.org/abs/2312.06960
介绍:
使用大量配对的互联网和卫星图像训练遥感图像的图像编码器,使其与
CLIP
的图像编码器对齐。无监督方法能够为两种不同分辨率的遥感图像训练出首创的大规模视觉语言模型
(VLM)
。实验表明,这些
VLM
可实现卫星图像的零样本、开放词汇图像分类、检索、分割和视觉问答。在这些任务中的每一个任务中,在没有文本注释的情况下训练的
VLM
都优于现有的经过监督训练的
VLM
,分类性能提高
20%
,分割性能提高
80%
。
RSGPT: A Remote Sensing Vision Language Model and Benchmark
| 2023-arxiv
| Paper:
https://arxiv.org/abs/2307.15266
| github(no code):
https://github.com/Lavender105/RSGPT
介绍:
在这项工作中,我们
**
构建了一个高质量的遥感图像字幕数据集
(RSICap)
**