专栏名称: 我爱计算机视觉

关注计算机视觉与机器学习技术的最前沿，“有价值有深度”，分享开源技术与最新论文解读，传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习，QQ群:928997753，52CV君个人账号：Your-Word。

图像修复（Inpainting）技术的前沿模型与数据集资源汇总

我爱计算机视觉 · 公众号 · · 2024-11-26 23:29

正文

图像修复（Image Inpainting）是一种计算机视觉技术，旨在填补图像中的缺失区域或去除图像中的不需要部分，使其看起来自然且无明显痕迹。其目标是根据图像的上下文信息和周围像素来推断和重建缺失区域的内容，以生成逼真且一致的图像。

Inpainting 技术的应用广泛，包括但不限于：

图像修复：用于修复老旧或损坏的照片，例如修补划痕、污渍或褪色区域。
视觉内容编辑：在照片/视频编辑中，填充被裁剪或移除的部分，或替换特定区域的内容。；移除不需要的对象或元素，实现无缝过渡。
电影与游戏特效：在视觉特效制作中填充虚拟环境中缺失的视图，提升沉浸感。
......

本文精心汇总了 Inpainting 技术的前沿开源模型与数据集资源，旨在加速开发人员的研究进程，轻松获取所需工具与数据。

LaMa

LaMa（LArge MAsk inpainting）是三星、EPFL、Skotech 提出的一个用于图像修复的深度学习模型，专门用于处理大尺寸遮挡区域的图像修复任务。

LaMa特点：

使用一种新修复网络，具有图像范围感受野的快速傅里叶卷积 fast Fourier convolutions (FFCs)
高感受野感知损失（high receptive field perceptual loss）
large training masks，能发挥前两个组件的潜力

此外，LaMa 在远高于训练时所见分辨率（~2k，相较于训练时的 256x256）下表现出更良好的泛化能力，并且即使在具有挑战性的场景（如周期性结构的补全）中也能取得出色的表现。

参考论文：Resolution-robust Large Mask Inpainting with Fourier Convolutions(WACV2022)
论文地址：https://arxiv.org/abs/2109.07161
开源地址：https://github.com/advimman/lama

PowerPaint

PowerPaint 是清华大学（深圳）和上海人工智能实验室共同开放的一个高质量多功能的图像修补模型，可以同时支持插入物体、移除物体、图像扩展、形状可控的物体生成，实现关键是通过针对不同修复任务学习定制的任务提示词来进行。

参考论文：A Task is Worth One Word: Learning with Task Prompts for High-Quality Versatile Image Inpainting(ECCV2024)
论文地址：https://arxiv.org/abs/2312.03594
开源地址：https://github.com/open-mmlab/PowerPaint

IOPaint

IOPaint 是一个免费的、开源的、全自动托管的图像修复/扩展工具，由最先进的 AI 模型提供支持。

在 IOPaint 中，可以使用多种模型来修改图像，包括以下几种修改：

Erase（擦除）：移除任何不需要的对象、缺陷、水印或人物。还开发了一个 macOS 和 iOS 应用程序 OptiClean，它提供此功能。使用模型为LaMa。
Inpainting（修复）：对图像的特定部分进行修改，添加新对象或替换图中的任何内容。使用模型PowerPaint。
Outpainting（扩展）：在图像周围生成新的像素，使其变得更大。使用模型为PowerPaint。

官网地址：https://www.iopaint.com/
开源地址：https://github.com/Sanster/IOPaint

BrushNet

BrushNet 是腾讯和港中大联合开发的一个即插即用（plug-and-play）图像修复方法，采用像素级掩膜图像特征插入的架构设计。在包括图像质量、掩膜区域保留和文本一致性在内的七个关键指标上均优于现有模型。

此外，为了训练和评估基于分割的掩膜修复模型，提出 BrushData 和 BrushBench。具体来说，BrushData 为 Laion-Aesthetic 数据集增加了额外的分割掩膜标注。BrushBench 共包含 600 张图像，每张图像都有人工标注的掩膜和字幕注释。BrushBench 中的图像均匀分布在自然图像和人工图像（如绘画）之间。该数据集在不同类别（包括人类、动物、室内场景和室外场景）之间实现了均衡分布。

参考论文：BrushNet: A Plug-and-Play Image Inpainting Model with Decomposed Dual-Branch Diffusion(ECCV2024)
论文地址：https://arxiv.org/abs/2403.06976
开源地址：https://github.com/TencentARC/BrushNet
数据下载：https://tencentarc.github.io/BrushNet/

MAT

MAT 是港中大、Adobe Inc 等提出的第一个基于 Transformer 的能够直接处理高分辨率图像修复系统。MAT 组件包括：Multi-head Contextual Attention 通过动态掩码指示的有效 Tokens，高效地进行长距离依赖建模。通过改进的 Transformer 模型结构，使得在训练大型掩码图像的修复时更加稳定。此外，还设计了新颖的样式操作模块，以提供多样性图像修复。MAT 在多个基准数据集上包括 Places 和 CelebA-HQ，取得了 SOTA 效果。

参考论文：MAT: Mask-Aware Transformer for Large Hole Image Inpainting(CVPR2022 Best Paper Finalists, Oral)
论文地址：https://arxiv.org/abs/2203.15270
开源地址：https://github.com/fenglinglwb/MAT

CelebA Dataset

CelebA Dataset 是一个专注于人脸图像的数据集，包含 20 多万张名人图像，这些图像涵盖了丰富的人脸表情、姿态和光照条件，以及每张图像有 40 个属性注释。为人脸编辑、人脸修复等任务提供了宝贵的训练资源。

下载地址：https://mmlab.ie.cuhk.edu.hk/projects/CelebA.html

Places2

Places 数据集由麻省理工学院（MIT）发布，包含 1000 多万张图像，包括 400 多个独特的场景类别。该数据集每类包含 5000 到 30000 个训练图像。

该数据集因其广泛的自然场景覆盖和丰富的图像多样性，非常适合用于构建图像修复模型，使模型能够从多种自然场景中学习分布特性。

下载地址1：https://www.kaggle.com/datasets/nickj26/places2-mit-dataset
下载地址2：http://places2.csail.mit.edu/download.html

NVIDIA Irregular Mask Dataset

NVIDIA 提出用部分卷积（partial convolutions）和掩模自动更新代替卷积运算（automatic mask update step）来实现目前最具艺术性的图像修复结果，包括任何形状、大小、位置或距离图像边界任何距离的空白。

另外，还提出一个大型不规则掩膜数据集（Irregular Mask Dataset）， 55,116 个掩码用于训练，24,866 个掩码用于测试，图像的尺寸均为 512×512。