专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
目录
相关文章推荐
GBA Community  ·  DeepSeek: Your ... ·  昨天  
GBA Community  ·  DeepSeek: Your ... ·  昨天  
黑马程序员  ·  鸿蒙+DeepSeek:一起探索“黑科技”! ·  2 天前  
黑马程序员  ·  鸿蒙+DeepSeek:一起探索“黑科技”! ·  2 天前  
美股研究社  ·  增长放缓,投资者过于乐观,亚马逊隐忧频现! ·  2 天前  
美股研究社  ·  增长放缓,投资者过于乐观,亚马逊隐忧频现! ·  2 天前  
江苏新闻  ·  知名连锁品牌被曝关店,门店遍布全国! ·  2 天前  
江苏新闻  ·  知名连锁品牌被曝关店,门店遍布全国! ·  2 天前  
51好读  ›  专栏  ›  极市平台

38.7fps!EdgeSAM = RepViT + SAM,移动端超强变种,已开源!

极市平台  · 公众号  ·  · 2024-03-11 22:00

正文

↑ 点击 蓝字 关注极市平台
者丨AIWalker
来源丨AIWalker
编辑丨极市平台

极市导读

SAM轻量化的终点竟然是RepViT + SAM,移动端速度可达38.7fps。 >> 加入极市CV技术交流群,走在计算机视觉的最前沿

对于 2023 年的计算机视觉领域来说,「分割一切」(Segment Anything Model)是备受关注的一项研究进展。尽管SAM具有各种优势,但速度慢是其不得不提的一个缺点,端侧根本就跑不动。研究者们也提出了一些改进策略: 将默认 ViT-H 图像编码器中的知识提炼到一个微小的 ViT 图像编码器中,或者使用基于 CNN 的实时架构降低用于 Segment Anything 任务的计算成本

就在今日,arXiv上同时公开两篇SAM轻量化的方法 EdgeSAM RepViT-SAM ,更巧合的是两者采用了 完全相同的Image Encoder模块:RepViT ;两者也都在手机端达到了超快处理速度,值得一提的是: EdgeSAM能在iphone14手机上达到38.7fps的处理速度

https://arxiv.org/abs/2312.05760
https://github.com/THU-MIG/RepViT

该方案延续了MobileSAM的处理方式,即采用原生SAM的ViT Encoder模块对所替换的Encoder模块进行知识蒸馏。

  • 在实现方面,RepViT-SAM引入了移动端新秀[RepViT]的RepViT-M2.3作为图像编码器提取图像特征;
  • 在老师模型方面,它选用了SAM-ViT-H版本进行蒸馏。
  • 在应用方面,该方案进行了多种任务适配,如Mask预测、边缘检测等。

https://arxiv.org/abs/2312.06660
https://github.com/chongzhou96/EdgeSAM

相比而言,EdgeSAM方法上会显得更优异:它并非仅仅参考MobileSAM进行了Image Encoder的蒸馏,还仔细分析了不同蒸馏策略并证实: 任务不可知的编码器蒸馏难以学习到SAM所具备的全部知识

有鉴于此,作者提出: 循环使用bbox与point提示词,同时对提示词编码器与Mak解码器进行蒸馏,以便于蒸馏模型能够准确的学习到提示词与Mask之间的复杂关系

  • 在2080Ti上,相比原生SAM,EdgeSAM推理速度快40倍;
  • 在iPhone14上,相比MobileSAM,EdgeSAM推理速度快14倍,达到了38.7fps。

公众号后台回复“ 数据集 ”获取100+深度学习各方向资源整理

极市干货

技术专栏:






请到「今天看啥」查看全文