Mesoscopic Insights: Orchestrating Multi-scale & Hybrid Architecture for Image Manipulation Localization
作者单位:
论文链接:
https://arxiv.org/abs/2412.13753代码链接:
https://github.com/scu-zjz/Mesorch随着多媒体篡改技术的快速发展,图像篡改的检测和定位正变得越来越复杂。在现有的图像篡改检测工作中,大多数方法主要关注非语义信息(如边缘、噪声等)留下的篡改痕迹。然而,实际的篡改往往针对语义级别的信息(如人脸、树木等),以达到误导或欺骗的目的。在这种情况下,仅依赖非语义信息的检测模型在定位篡改区域时表现出明显的不足。
尽管少数模型试图结合非语义信息与语义信息,但它们通常将非语义信息作为语义信息的补充,未能将二者置于同等地位,这种设计上的限制显著影响了模型对复杂篡改场景的适应能力和检测性能。因此,如何有效融合非语义信息和语义信息,并赋予两者相等的重要性,成为提升图像篡改检测性能的关键挑战。
▲ 图1. CASIAv2 数据集的随机样本。红线标出篡改区域边界。第一列为与对象无关的篡改,其他四列为与对象相关的篡改。研究内容
Mesorch 模型首次提出了从介观表征的角度捕捉图像篡改痕迹的设计思路,构建了一种基于并行多尺度 CNN 网络与 Transformer 网络的混合架构。CNN 网络负责捕获局部的非语义信息,如边缘伪影,而 Transformer 网络擅长提取全局的语义信息,如对象的形状和空间布局。
通过这种设计,Mesorch 模型将非语义信息和语义信息置于同等地位,并通过引入尺度评分机制显式地增强了不同尺度特征的重要性,从而提高了模型对多尺度信息的利用效率。
此外,为了在保证性能的同时减少参数量和计算复杂度,研究团队设计了一种尺度裁剪机制,通过裁剪低重要性的尺度提出了轻量化的 Mesorch-P 模型。
在统一的评估协议下,研究团队复现并对比了多个现有的最先进方法,实验结果表明,Mesorch 和 Mesorch-P 模型在性能和效率上均实现了显著的突破,为图像篡改检测领域提供了新的技术解决方案。主要的组件包含:
▲ 图2 Mesorch 模型设计
1. 多尺度特征编码模块
该模块由并行的 CNN 和 Transformer 网络组成,分别用于处理高频与低频特征。首先,输入图像通过离散余弦变换(DCT)分离出高频和低频分量,高频特征用于捕获非语义信息,低频特征用于提取语义信息。随后,高频特征被传递到局部特征编码器(Local Feature Encoder),而低频特征被传递到全局特征编码器(Global Feature Encoder)。
每个编码器在不同尺度上输出特征图,捕捉不同分辨率下的篡改特征。这种多尺度特征编码方式可以保留丰富的信息层次,使模型更适应复杂场景的篡改检测。
2. 自适应尺度评分模块
为解决传统多尺度特征融合方法中固定权重的局限性,Mesorch 引入了自适应尺度评分模块(Adaptive Weighting Module)。该模块根据不同尺度的特征重要性动态调整权重,确保关键特征在最终预测中占据更高的权重。
具体来说,自适应模块利用高频与低频分量生成的增强图像,计算每个尺度的权重分布,并以像素级精度进行调整。这种动态评分机制避免了对无关或冗余特征的过度依赖,同时强化了与篡改区域相关的重要特征。
3. 模型裁剪与轻量化优化
为了在提升性能的同时减少计算成本,研究团队设计了一种基于权重的重要性裁剪机制。通过评估每个尺度的平均权重分布,自动裁剪贡献较小的尺度,以此优化模型的参数量和计算复杂度。裁剪后的模型被命名为 Mesorch-P,它在减少资源消耗的情况下仍能保持与完整模型相近的性能,体现了参数效率与检测能力的兼顾。
研究总结
总而言之 Mesorch 具有以下四个贡献:
1. 首次深入探索介观表征理念:Mesorch 模型首次深入利用了介观表征的思想,结合非语义信息和语义信息,将局部和全局特征置于同等地位,为图像篡改检测领域提供了全新的研究视角和技术路线。
2. 提出并行多尺度特征编码架构:模型设计了并行的多尺度 CNN 与 Transformer 网络,用于分别提取高频的局部特征和低频的全局特征,并通过离散余弦变换分离高频和低频信息,确保模型能够有效捕捉多尺度、多层次的篡改痕迹。
3. 引入自适应尺度评分与轻量化优化机制:通过自适应尺度评分模块动态调整不同尺度特征的重要性,显著提高了模型在复杂场景中的泛化能力。同时,提出基于权重裁剪的轻量化机制,通过裁剪低重要性的尺度,减少模型计算复杂度,形成轻量版 Mesorch-P,兼顾了性能与效率。
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧