检测一切，分割一切，生成一切！基于SAM的计算机视觉应用！

FightingCV · 公众号 · · 2024-04-07 09:00

正文

SAM无疑是当前计算机视觉领域的一项重大突破 ，其强大能力让人们对未来的图像处理技术充满了期待。这款应用通过深度学习技术，展现出了惊人的 “检测一切、分割一切、生成一切” 的能力， 为图像处理和计算机视觉带来了革命性的变革。

我们邀请到了 大厂算法工程师，手握多个专利的侯老师 带来—— ICCV2023最佳论文提名——SAM,引爆CV圈！ 带我们探索SAM未来的发展趋势！

扫码参与课程

领取导师亲自整理 SAM 论文合集&ppt原稿

老师简介

-南加州大学博士，某大厂算法研究员

发表多篇CCF类论文，核心期刊，EI会议等。

-研究方向：

1. 自然语言处理，包括对话系统，命名体识别，多模态学习等。

2. 推荐系统，包括召回网络，排序网络等。

3. 计算机视觉，包括医学图像处理，图像分割，OCR，人脸识别等等。

4. 机器学习，包括时序预测，回归问题等

课程大纲

1）什么是SAM模型

2）SAM模型介绍

3）SAM应用点介绍

扫码参与课程

领取导师亲自整理 SAM 论文合集&ppt原稿

Meta 方向现状介绍：

Meta AI在2023年4月6日发布了一项革命性的计算机视觉技术——"Segment Anything Model"（SAM）。 这是一种全新的图像分割模型，具有卓越的零样本泛化能力，能够处理包括未知物体和不常见场景在内的各种图像 。SAM被设计为一个可交互的提示驱动型模型，这使其能够无需额外训练即可迁移到新的图像类型和分割任务上。

该模型的结构主要分为三大部分：一个负责 处理图像输入的图像编码器 ；一个用于 解释模型指令的提示编码器 ；以及一个 输出图像分割掩码的掩码解码器 。 SAM 在自然语言处理（ NLP ）和计算机视觉（ CV ）任务上展现出了令人瞩目的性能，研究人员希望通过这个模型整合和统一图像分割的各种任务。

整体来看，图像编码器是 SAM 模型中计算量较大的部分。在实际的演示体验中，图像编码的计算过程是在服务器端完成的。相比之下， 提示编码器和掩码解码器的体积较小，可以直接在用户的浏览器内或利用本地内存快速运行 。因此，即便图像编码器部分较为复杂，整个模型的运行速度仍然保持在一个相对较快的水平。

总结来说，提示编码器通过处理不同类型的提示（点、框、掩码），将这些信息转化为与图像嵌入兼容的特征表示，为模型后续的特征融合打下基础。

模型辅助手动标注阶段:

在这一阶段的起始，研究团队首先利用公开的图像分割数据集对SAM模型进行了初步训练。随后，通过模型对SA-1B数据集进行图像掩码预测，并以此为基础，由一组专业的标注人员对预测出的掩码进行精细化处理。

半自动标注阶段:

该阶段旨在增加掩码的多样性，从而提升模型分割不同对象的能力。通过让SAM自动提取高置信度的掩码，然后展示给标注人员进行预填充，进一步要求他们标注图像中任何未被覆盖的对象，以便标注者能够专注于较不显著的对象。

全自动标注阶段:

在这一阶段，标注工作完全由模型自动完成。两项主要的技术进步促成了这一跳跃：首先，通过之前阶段收集的大量掩码显著改善了模型性能；其次，研究团队开发了一种模糊感知模型，能够在情况不明确时预测有效的掩码。

应用点： 研究者表示SAM具有协助处理许多真实世界场景的能力。研究者对SAM在多种真实世界分割场景（例如，自然图像、农业、制造业、遥感和医疗健康场景）中的性能进行了评估。发现，在像自然图像这样的常见场景中，它具有优秀的泛化能力，而在低对比度的场景中，它的效果较差，而且在复杂场景中需要强大的知识。

论文批注（论文里最核心的，写的最精彩的）

检测一切，分割一切，生成一切！基于SAM的计算机视觉应用！

正文

请到「今天看啥」查看全文