将地球“装进”神经网络
实现虚拟环球旅行需要几步?
近日
北京航空航天大学
史振威教授和邹征夏教授团队
研发一种
“数字地球(MetaEarth)”
遥感生成式模型
可生成全球任意地理位置
多分辨率、无界的遥感图像
团队用“整颗”地球的
卫星遥感影像训练深度神经网络
克服了多种要素特征泛化、
表征一致性等难题
最终在六亿参数规模的网络中
创造覆盖全球的“平行世界”
近年来,Stable Diffusion、Sora等多种AI视觉生成模型引起了学术界和工业界的广泛关注。结合特定领域知识,生成逼真且多样的专业图像和视频数据,已成为各垂直领域的发展趋势。特别是在航空航天遥感领域,
发展具有遥感特色的视觉生成模型,对于城市规划等应用具有重要的价值
。
MetaEarth在生成全球范围内、多分辨率、无界和虚拟无限的遥感图像方面具有强大的能力
现有生成模型的规模仍局限于日常人类活动场景,生成图像的分辨率和信息容量有限。在本项目中,研究者们从遥感俯拍视角出发,提出并构建了
“数字地球(MetaEarth)”遥感生成式基础模型
,
实现了世界范围内的遥感图像生成
。同时考虑了城市、森林、沙漠、海洋、冰川和雪地等广泛的地貌特征。
MetaEarth作为一种神经网络驱动的
数据引擎
,有望为卫星等空天无人系统平台提供一个逼真的虚拟环境,并在城市规划、环境监测、灾害管理、农业优化等领域广泛应用;除此之外,MetaEarth在
构建生成式世界模型
方面也具有巨大潜力,为未来的研究提供新的可能。
在研究中都遇到了哪些挑战
研究团队又是如何解决的呢
和小萱一起了解——
“天高地迥,觉宇宙之无穷”,从雪山巅峰到辽阔海面,从广袤原野到茂密丛林,生成全球尺度的图像需要包括广泛的地理特征。仅对于同一地区,在不同的纬度、气候和文化环境下,也会表现出巨大差异,这对
生成模型的容量
提出了很高的要求。
在过去的研究中,尽管出现了图像生成技术在遥感领域的尝试,但此类方法通常仅在小规模的数据集上进行训练,缺少地貌的多样性。为解决上述问题,团队构建了一种超过
6亿
参数的概率扩散模型,并收集了大规模遥感数据集用于模型的训练,包括来自覆盖
全球大多数区域的多个空间分辨率的图像及其地理信息
(纬度、经度和分辨率)。
全球各种土地特征图像,包括水体、山脉、沙漠、农田、城市和乡村地区
在俯拍图像成像过程中,地物特征的展现受分辨率影响很大,在不同图像分辨率下具有明显的差异,难以具备在指定分辨率(米/像素)下精准生成的能力。
为此,作者提出一种分辨率引导的
自级联生成框架
。不同于过去的单级生成方法,所提出的框架以多层级的方式,依次生成给定地理位置的低分辨率到高分辨率的图像。具体而言,研究者们在不同级联阶段之间构建了一个
统一模型,共享相同的网络权重
,由前一阶段生成的低分辨率图像及其空间分辨率指导生成更高分辨率的图像。随着级联层数的积累,生成的遥感图像在分辨率和内容上都表现出多样性。
在遥感领域,现有的图像生成方法通常只能生成有限尺寸的图像(如 512x512 像素),对于如何生成尺寸更大、场景更广的图像的研究还较少。与日常自然图像不同,
遥感图像具有超大幅宽的特性,边长可能达到数万像素
。如果简单地“拼接”每个独立生成的图像会导致视觉上的不连续,因此生成连续、任意大小的无界图像仍然是一个待解决的重要问题。
怎样实现“丝滑”连接呢?北航团队提出一种
内存高效的滑动窗口生成方法和噪声采样策略
。该策略将生成的图像切分成重叠的图像块作为条件,通过特定的噪声采样策略,使相邻图像块的共享区域生成相似的内容,从而避免拼接缝隙。此外,这种噪声采样策略,也使得模型能在实现任意尺寸的无界图像生成时,消耗更少的显存资源。