专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
目录
相关文章推荐
91产品  ·  喜茶小红书营销方案 ·  15 小时前  
产品犬舍  ·  完整地聊聊我对 “隐性知识” ... ·  昨天  
91产品  ·  Deepseek本地部署RAG知识库教程 ·  昨天  
人人都是产品经理  ·  一个合格的产品经理是什么样子?很多人搞错了! ·  昨天  
91产品  ·  视频号爆单指南 ·  3 天前  
51好读  ›  专栏  ›  FightingCV

检测一切,分割一切,生成一切!基于SAM的计算机视觉应用!

FightingCV  · 公众号  ·  · 2024-04-07 09:00

正文

SAM无疑是当前计算机视觉领域的一项重大突破 ,其强大能力让人们对未来的图像处理技术充满了期待。这款应用通过深度学习技术,展现出了惊人的 “检测一切、分割一切、生成一切” 的能力, 为图像处理和计算机视觉带来了革命性的变革

我们邀请到了 大厂算法工程师,手握多个专利的侯老师 带来—— ICCV2023最佳论文提名——SAM,引爆CV圈! 带我们探索SAM未来的发展趋势!

扫码参与课程

领取导师亲自整理 SAM 论文合集&ppt原稿




01

老师简介

-南加州大学博士,某大厂算法研究员

发表多篇CCF类论文,核心期刊,EI会议等。

-研究方向:

1. 自然语言处理,包括对话系统,命名体识别,多模态学习等。

2. 推荐系统,包括召回网络,排序网络等。

3. 计算机视觉,包括医学图像处理,图像分割,OCR,人脸识别等等。

4. 机器学习,包括时序预测,回归问题等


02

课程大纲

1)什么是SAM模型

2)SAM模型介绍

3)SAM应用点介绍

扫码参与课程

领取导师亲自整理 SAM 论文合集&ppt原稿

Meta 方向现状介绍:

Meta AI在2023年4月6日发布了一项革命性的计算机视觉技术——"Segment Anything Model"(SAM)。 这是一种全新的图像分割模型,具有卓越的零样本泛化能力,能够处理包括未知物体和不常见场景在内的各种图像 。SAM被设计为一个可交互的提示驱动型模型,这使其能够无需额外训练即可迁移到新的图像类型和分割任务上。

该模型的结构主要分为三大部分:一个负责 处理图像输入的图像编码器 ;一个用于 解释模型指令的提示编码器 ;以及一个 输出图像分割掩码的掩码解码器 SAM 在自然语言处理( NLP )和计算机视觉( CV )任务上展现出了令人瞩目的性能,研究人员希望通过这个模型整合和统一图像分割的各种任务。

整体来看,图像编码器是 SAM 模型中计算量较大的部分。在实际的演示体验中,图像编码的计算过程是在服务器端完成的。相比之下, 提示编码器和掩码解码器的体积较小,可以直接在用户的浏览器内或利用本地内存快速运行 。因此,即便图像编码器部分较为复杂,整个模型的运行速度仍然保持在一个相对较快的水平。

总结来说,提示编码器通过处理不同类型的提示(点、框、掩码),将这些信息转化为与图像嵌入兼容的特征表示,为模型后续的特征融合打下基础。


模型辅助手动标注阶段:

在这一阶段的起始,研究团队首先利用公开的图像分割数据集对SAM模型进行了初步训练。随后,通过模型对SA-1B数据集进行图像掩码预测,并以此为基础,由一组专业的标注人员对预测出的掩码进行精细化处理。


半自动标注阶段:

该阶段旨在增加掩码的多样性,从而提升模型分割不同对象的能力。通过让SAM自动提取高置信度的掩码,然后展示给标注人员进行预填充,进一步要求他们标注图像中任何未被覆盖的对象,以便标注者能够专注于较不显著的对象。


全自动标注阶段:

在这一阶段,标注工作完全由模型自动完成。两项主要的技术进步促成了这一跳跃:首先,通过之前阶段收集的大量掩码显著改善了模型性能;其次,研究团队开发了一种模糊感知模型,能够在情况不明确时预测有效的掩码。


应用点: 研究者表示SAM具有协助处理许多真实世界场景的能力。研究者对SAM在多种真实世界分割场景(例如,自然图像、农业、制造业、遥感和医疗健康场景)中的性能进行了评估。发现,在像自然图像这样的常见场景中,它具有优秀的泛化能力,而在低对比度的场景中,它的效果较差,而且在复杂场景中需要强大的知识。

论文批注(论文里最核心的,写的最精彩的)







请到「今天看啥」查看全文