0. 这篇文章干了啥?
语义分割是自动驾驶中的一项重要任务。它有助于实现基于可视化界面的环境感知、路径规划与决策、交通场景分析、障碍规避与碰撞预防、精确定位以及人机交互。语义分割的性能保证了自动驾驶中预期功能的安全性(SOTIF)。过去十年间,随着深度学习的成功应用,许多语义分割模型变得广为人知。
对抗性样本的存在是对可信深度学习的一大挑战。微小的扰动不会改变图像的语义信息,这些对抗性样本对人类肉眼来说是不可察觉的。然而,它们可以欺骗神经网络做出错误的预测。在语义分割任务中应用对抗性样本可能导致不同像素分类的混淆,这在自动驾驶中是不可容忍的,因为它可能带来潜在的安全风险。
这引发了一个深刻的科学问题:哪种对抗性样本对语义分割模型具有最高的安全风险?哪种模型在对抗性攻击下最为稳健?是否有可能将对抗性样本作为负责任的工具来辅助自动驾驶的安全性测试?
之前的一些研究已经基于卷积神经网络(CNN)讨论了语义分割模型的对抗性鲁棒性。随着基于聚合标记的视觉识别任务中视觉变换器(ViT)的兴起,对基于ViT的语义分割模型可靠性的研究,包括其对抗性鲁棒性和在自然变化下的性能,显示了其重要性。最近,ViT模型作为基础模型,已被证明能够执行各种下游任务。对其鲁棒性的关注是有意义的。一些实证研究已经对特定基于深度学习的语义分割模型的对抗性鲁棒性给予了特别关注,无论是基于CNN的模型还是Segment-Anything模型(SAM)。然而,模型设计范式的变化带来了鲁棒性研究范式的变化。基于CNN的模型对基于梯度的攻击或损坏敏感,但这类安全威胁对SAM模型可能不再那么致命。
研究假设表明,有必要对自动驾驶中语义分割的不同模型结构的对抗性鲁棒性进行系统研究。存在多种对抗性样本,可能攻击部署了基于深度学习的语义分割模型的自动驾驶车辆。白盒对抗性样本通常与车联网中的网络安全风险相关,而基于损坏的黑盒对抗性样本则可用作自动驾驶中的安全边界测试工具,从而将安全风险转化为负责任的应用。SOTIF处理的是由AI模型局限性引起的风险。黑盒损坏可以帮助在SOTIF评估中生成不同的测试用例。因此,在自动驾驶的鲁棒性研究中,还有很多尚未在以往研究中探讨过的探索空间。
此外,GPT-4和Segment-Anything模型(SAM)的出现表明,基础模型可以通过统一语言信号和视觉信号来解决复杂问题并实现人类水平的性能。这些早期但不完美的通用人工智能(AGI)火花与涌现现象相关联,即巨大的模型参数和大量的训练数据可以导致AI代理性能的相变。视觉信号和语言信号的统一带来了几个趋势:开放世界视觉识别的实现、基于广义基础模型的提示对原始图像像素进行聚类、以及广义视觉编码。值得研究这种趋势与对抗性鲁棒性之间的关系。
推荐学习:
深度剖析面向自动驾驶领域的车载传感器空间同步(标定)
基于研究动机,我们通过全面的实证研究,探索了白盒攻击和黑盒攻击下的零样本对抗性鲁棒性。我们在Cityscapes数据集上对自动驾驶进行了数据级别的鲁棒性评估,并对实验结果进行了定量和定性分析。在模型层面,评估的模型包括典型的CNN和ViT模型以及最新的SAM模型。我们特别关注在语言编码器(如对比语言-图像预训练CLIP)约束下,SAM模型的零样本对抗性鲁棒性性能。对零样本对抗性鲁棒性的评估有助于在生成式AI时代设计可信模型。
下面一起来阅读一下这项工作~
1. 论文信息
标题:Segment-Anything Models Achieve Zero-shot Robustness in Autonomous Driving
作者:Jun Yan, Pengyu Wang, Danni Wang, Weiquan Huang, Daniel Watzenig, Huilin Yin
机构:Tongji University、Graz University of Technology
原文链接:https://arxiv.org/abs/2408.09839
代码链接:https://github.com/momo1986/robust_sam_iv
2. 摘要
语义分割是自动驾驶中的一项重要感知任务,但它面临着对抗性示例的风险。过去几年中,深度学习逐渐从具有相对较少参数的卷积神经网络(CNN)模型过渡到具有大量参数的基础模型。Segment-Anything模型(SAM)是一种通用的图像分割框架,能够处理各种类型的图像,并能够在无需针对特定对象进行训练的情况下识别和分割图像中的任意对象。它是一个统一的模型,能够处理包括语义分割、目标检测和跟踪在内的多种下游任务。在自动驾驶的语义分割任务中,研究SAM的零样本对抗鲁棒性具有重要意义。因此,我们针对SAM的鲁棒性进行了系统的实证研究,无需额外训练。基于实验结果,SAM在黑盒扰动和白盒对抗攻击下的零样本对抗鲁棒性是可接受的,甚至无需额外训练。这一发现具有深刻的洞察力,即庞大的模型参数和大量的训练数据导致了涌现现象,从而为对抗鲁棒性提供了保障。SAM可以视为人工通用智能(AGI)管道的早期原型。在这样的管道中,一个统一的模型可以处理多种任务。因此,本研究不仅检验了视觉基础模型对安全自动驾驶的影响,还为开发可信的AGI提供了视角。代码可访问:https://github.com/momo1986/robust_sam_iv。
3. 效果展示
图1展示了研究流程。
4. 主要贡献
本文有两大贡献:
• (方法论层面)在语义分割任务中,本研究展示了在文本编码器辅助下的SAM管道,该管道在对抗性攻击下具有稳健的上下文学习能力。
• (实证研究层面)我们在Cityscapes数据集上评估了CNN模型、ViT模型和SAM模型在白盒攻击和黑盒攻击下的鲁棒性。
5. 基本原理是啥?
SAM是一种强大的基础模型,能够分割任意对象,而 SA-1B 是目前最大的分割数据集,包含 1100 万张图像,用于近似世界分布。SAM 是一种通用的对象分割方法,通过其掩模提供精确的轮廓。SA-1B 则是大规模通用分割数据集。基于深度学习的封闭集语义分割流程可以提供丰富的语义标注,而 SAM 则能生成精确的掩模。此外,CLIP 模型是一个大型多模态预训练模型,能够将图像和文本映射到共同的特征空间,形成图像-文本对。CLIP 包含两个主要组件:图像编码器和文本编码器。这两个编码器通过对比学习并行训练,以实现跨模态特征表示和对齐。
本研究提出了一个问题:当 SAM 遇到开放集类别时,其零样本对抗鲁棒性如何?为此,我们设计了一个基于 CLIP 方法的开放集类别编码器。图 2 描述了这样一个框架。SAM 图像编码器(绿色部分)将原始图像数据转换为低维特征向量,以便后续计算和分析。掩模解码器的作用是将图像嵌入、提示嵌入和输出标记高效地映射到掩模上。它使用了一个修改后的 Transformer 解码器块,后跟一个动态掩模预测头部。掩模解码器(黄色部分)对图像嵌入进行上采样,并使用多层感知机(MLP)将输出标记映射到动态线性分类器中,该分类器将为每个图像位置计算掩模前景概率。
CLIP方法有助于在不同应用场景中对不同类别进行分类(例如,在 Cityscapes 数据集上的 19 个类别)。在图 2 中,紫色部分表示基于 CLIP 方法的文本编码器。CLIP 具有丰富的世界知识、与图像配对的推理能力,并能在分割分支中提供辅助。语义分支(蓝色部分)通过语义分割流程提供每个像素的类别,用户可以根据分割模型的架构和感兴趣的类别,使用基于 ViT 的模型(如 SegFormer和 OneFormer)进行自定义。值得注意的是,Semantic-Segment-Anything 模型无需在特定数据集上对 SegFormer 和 OneFormer 进行监督学习,因为 SAM 作为视觉基础模型,可以无需额外训练即可迁移到下游任务。语义投票模块(橙色部分)根据掩模的位置裁剪出相应的像素类别,并选择这些像素的预测类别中概率最高的作为该掩模的分类结果。
SAM 基于 ViT 模型,能够仅通过令牌表达图像信息。CLIP 生成语言指令,有助于提取视觉信息。基于图像和语言的结合,这种范式能够处理复杂场景,并在下游任务中实现视觉感知系统的零样本对抗鲁棒性。
这引出了本研究的核心主题:什么样的模型架构能够保证基于神经网络的语义分割模型的对抗鲁棒性?基于 CNN 的分割模型具有较好的泛化能力,但其对抗鲁棒性有待提高。ViT 模型能够提取图像对象的更好全局信息,消除了 CNN 模型中存在的归纳偏差及其对纹理的敏感性。同时,Transformer 架构为统一图像和文本信息创造了潜力。这引发了一个问题:在自动驾驶中的语义分割任务中,利用基于 ViT 的基础模型结合 CLIP 辅助,是否能够实现更好的对抗鲁棒性?因此,有必要进行全面系统的实证研究。
6. 实验结果
7. 总结 & 未来工作
本文探讨了自动驾驶中语义分割任务的自注意力机制(Self-Attention Mechanism,SAM)架构的零样本对抗鲁棒性。研究结果令人惊讶,表明此类模型在与恶劣天气和传感器干扰相关的黑盒攻击下表现出鲁棒性。这些结果为自动驾驶系统的预期功能安全性(Safety of the Intended Functionality, SOTIF)提供了有价值的见解。此外,该模型还表现出对白盒对抗攻击的显著鲁棒性,为车辆互联网中的恶意数据提供了安全保障。
未来,我们计划扩大测试规模,纳入其他攻击方法,如SegPGD。此外,整合测试时防御方法来进一步增强鲁棒性是一个有意义的研究方向。第三,对视觉基础模型零样本对抗鲁棒性的解释仍是一个开放领域,需要进一步探索。最后但同样重要的是,对现实世界应用中部署的研究值得进一步探讨,以构建下一代可信的人工智能通用系统(Artificial General Intelligence, AGI)。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d008
3D视觉知识星球
「
3D视觉从入门到精通