专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
目录
相关文章推荐
中国基金报  ·  零基础也能上车!3天解锁ETF投资指南 | ... ·  13 小时前  
中国基金报  ·  太罕见!超100亿,爆买! ·  13 小时前  
中国基金报  ·  重磅来了!最新解读 ·  昨天  
中国基金报  ·  深夜!巴菲特,突发! ·  3 天前  
爱否科技  ·  疑似一加小屏新机提前曝光,后置双摄设计 ·  6 天前  
51好读  ›  专栏  ›  3DCV

RA-L'24 开源 | 轻量语义分割+边缘检测算法,适用主流CNN/Transformer分割框架!

3DCV  · 公众号  ·  · 2024-03-12 11:00

正文

点击下方 卡片 ,关注 「3DCV」

选择 星标 ,干货第一时间送达

点击加入 「3DCV」技术交流群

作者:Youqi Liao(一作授权) | 来源:3DCV

添加微信:dddvision,备注:语义分割,拉你入群。文末附行业细分群

0. 这篇文章干了啥?

一句话总结: 基于轻量化框架同时执行语义分割和边缘检测任务

对于多传感器标定,语义建图及机器人导航等任务,实时获取鲁棒的语义信息和锐利的边界信息非常重要。尽管语义分割和边缘检测是相辅相成的任务,但大多数轻量化模型的研究专注于语义分割任务,忽略了边缘信息的重要性。

因此,本文提出了Mobile-Seed, 一种轻量化的,同步完成语义分割和边缘检测的多任务学习框架。Mobile-Seed由一个双分支编码器,主动融合解码器(Active Fusion Decoder, AFD)和多任务一致性约束组成。编码器分为两个分支:一个分支捕捉类别可知的语义信息,另一个分支从得到的多尺度信息中提取边界信息。主动融合解码器(AFD)自适应的学习各个通道的权重,从而实现语义特征和边界特征的动态融合。另外,多任务一致性约束用于缓解深层次的多种监督信号带来的冲突。实验表明,Mobile-Seed较基线方法在多个数据集取得了显著提升。并能够在1024x2048的高分辨率输入时保持接近实时的效率。

下面一起来阅读一下这项工作~

1. 论文信息

标题:Mobile-Seed: Joint Semantic Segmentation and Boundary Detection for Mobile Robots

作者:Youqi Liao, Shuhao Kang, Jianping Li, Yang Liu, Yun Liu, Zhen Dong, Bisheng Yang, Xieyuanli Chen

机构:武汉大学,慕尼黑工业大学,南洋理工大学,伦敦国王学院,新加坡科技局,国防科技大学

来源:IEEE RA-L 2024

原文链接 https://ieeexplore.ieee.org/document/10461032

代码链接 https://github.com/WHU-USI3DV/Mobile-Seed

官方主页 https://whu-usi3dv.github.io/Mobile-Seed/

2. 摘要

准确且快速地获取锐利的边界特征和稳健的语义特征,对于许多下游机器人任务至关重要,如机器人抓取和操作、实时语义建图以及在边缘计算单元上执行的在线传感器校准任务。虽然边界检测和语义分割是相辅相成的任务,但大多数轻量化研究集中在语义分割任务上,忽视了边界信息的重要性。本工作中提出了Mobile-Seed,一个轻量化的,针对同步语义分割和边界检测任务的框架。该框架包括一个双分支编码器、一个主动融合解码器(AFD)以及一个多任务正则化约束项。编码器由两个分支组成:一个分支捕获类别感知的语义信息,另一个分支从多尺度的语义特征中提取边界信息。AFD模块通过学习特征通道间的关系,自适应的分配各个通道的权重,从而实现语义特征和边界特征的动态融合。此外,作者还提出了一种正则化约束项,以缓解多任务学习引入的冲突。与现有方法相比,Mobile-Seed提出了一个轻量化的多任务学习框架,可以同时提高语义分割表现并准确定位物体的边界。在Cityscapes数据集上的实验表明,Mobile-Seed在mIoU指标上比SOTA的基线方法提高了2.2个百分点,在mF-score指标上提高了4.2个百分点,同时在RTX 2080 Ti GPU上以1024x2048分辨率输入保持23.9帧每秒(FPS)的在线推理速度。在CamVid和PASCAL Context数据集上的扩展实验证实了该方法的广泛的应用前景。

3. 主要贡献

(1)本文提出了一种轻量级的联合语义分割和边界检测框架。该框架可以同时学习边界掩码和语义掩码。

2)本文提出了主动融合解码器(AFD),用于学习语义特征和边界特征之间的通道关系。与固定权重方法(融合权重与输入无关)相比,AFD可以动态的为语义特征和边界特征的每个通道分配合适的权重。

3)本文引入了双任务正则化损失,以有效缓解深度多样性监督(DDS)引起的冲突,使语义分割和边界检测任务能够相互促进。

4. 网络设计

鉴于目标是同步学习语义和边界信息,Mobile-Seed提出了一个双分支编码器从输入图像中捕获相应的特征。首先,一个由两个MobileNetV2块构成的编码块将原始图像嵌入到高维特征空间。语义分支以编码后的特征图作为输入,并提取语义丰富的特征。语义分支可以基于任何轻量级的语义分割骨干网络,在本文中,我们选择了最新的SOTA方法之一,AFFormer-T,(其中“T”代表AFFormer的“tiny”模型)作为语义分支的主干网络。边界分支以来自编码块的特征图和语义分支的中间特征图作为输入,使用3x3的卷积模块将语义信息转化为边缘信息,最后将多尺度的边界信息拼接在一起。主动融合解码器致力于自适应的学习语义特征和边界特征的相互关系,从而动态的将两种特征融合,用于分割任务。具体来说,首先使用全局平均池化模块,将输入的语义和边界特征池化为全局特征向量,随后基于通道注意力计算各个通道的权重,最后动态的将语义和边界特征拼接。

在语义标签的监督下,模型的顶层模块学习抽象的语义表示,使其能够对各种不同形状、光照条件和纹理的同一类别目标做出鲁棒的预测。相比之下,边界标签的监督引导底层模块区分类别无关的边界或非边界信息,而非类别可知的语义。由于底层同时为语义分割和边界检测提供基础特征支持,因此在反向传播过程中,底层会接受两种截然不同的监督。相关研究DDS(Deep diverse supervision, DDS)表明,深层次的,完全不同的监督会导致模型的性能衰退。因此,作者提出了双向的一致性约束来保证两个任务能够相互促进的学习。一方面,作者使用差分模板将语义特征差分为伪边缘特征,通过和边界分支预测的边缘特征对齐来保证语义到边界的一致性;另一方面,作者强调边界区域和内部区域的语义一致性,对边界区域的语义预测结果加以额外的监督,从而保证边界到语义的一致性。

5. 实验结果

在三个常用的语义分割数据集上取得了显著的提升。 在Cityscapes数据集上,Mobile-Seed的参数更少、计算成本更低,并且在mIoU指标上优于AFFormer-B,证明了该多任务设计良好的平衡了精度和效率。和基线方法AFFormer-T相比,Mobile-Seed(18/19)个类别上取得了稳定的提升。另外,在PASCAL Context和CamVid数据集上,Mobile-Seed也取得了显著超越基线方法的表现。

Mobile-Seed的语义分割预测结果如下图所示。

为了进一步证明Mobile-Seed能取得更加锐利,准确的边界,作者引入了mF-score和BIoU指标用于评价语义边界和二值化边界的精度。在各种阈值设定下,Mobile-Seed均能取得较基线方法更优的表现,尤其是在最严格的阈值设定下(3px)。

Mobile-Seed的语义边界预测结果如下图所示。

6. 总结

本文介绍了一种新型的轻量级框架Mobile-Seed,用于联合语义分割和边界检测。该方法包含一个双流编码器和主动融合解码器(AFD),其中编码器分别提取语义特征和边界特征,而AFD为这两种特征分配动态融合权重。此外,作者还引入了正则化损失来减轻双任务学习中的分歧。在各种数据集上的对比实验表明,该方法显著的超越了现有的SOTA方法。Mobile-Seed可部署于轻量级的机器人平台上,在下游的语义SLAM、机器人操控等任务中有着广阔的应用前景。对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

3D视觉精品课程:
3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪。

▲长按扫码学习3D视觉精品课程

3D视觉学习圈子

3D视觉从入门到精通知识星球 、国内成立最早、6000+成员交流学习。包括: 星球视频课程近20门(价值超6000) 项目对接 3D视觉学习路线总结 最新顶会论文&代码 3D视觉行业最新模组 3D视觉优质源码汇总 书籍推荐 编程基础&学习工具 实战项目&作业 求职招聘&面经&面试题 等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。







请到「今天看啥」查看全文


推荐文章
中国基金报  ·  太罕见!超100亿,爆买!
13 小时前
中国基金报  ·  重磅来了!最新解读
昨天
中国基金报  ·  深夜!巴菲特,突发!
3 天前
人人都是产品经理  ·  从技术角度看,很多产品都会犯这7个错误
8 年前
运势君  ·  【日运】最塔罗2017.3.11星座运势
7 年前
最爱大北京  ·  我惹你了吗?你干嘛这样对待我
7 年前
架构栈  ·  小结一下“鹿关门”
7 年前