专栏名称: 3D视觉工坊
1、OpenCV的技术传播; 2、3D点云与重建技术; 3、Vslam技术; 4、深度学习; 5、技术干货分享。
目录
相关文章推荐
新时代把关人  ·  内容审核该何去何从,有事没事跟deepsee ... ·  15 小时前  
新时代把关人  ·  内容审核该何去何从,有事没事跟deepsee ... ·  15 小时前  
知识星球精选  ·  小编节后已下岗,本文完全由DeepSeek生 ... ·  2 天前  
新闻在线  ·  警惕!春节剩菜,吃它比吃剩肉风险更大! ·  2 天前  
Hacking黑白红  ·  DeepSeek写高考作文,真的可以满分? ·  2 天前  
51好读  ›  专栏  ›  3D视觉工坊

替代卷积?替代注意力?西交开源PartialNet:让你的网络计算更少、性能更优

3D视觉工坊  · 公众号  ·  · 2025-02-06 07:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:3D视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:Partial Channel Network: Compute Fewer, Perform Better

作者:Haiduo Huang, Tian Xia, Wenzhe zhao, Pengju Ren

机构:Xi’an Jiaotong University ·

原文链接:https://arxiv.org/abs/2502.01303

代码链接:https://github.com/haiduo/PartialNet

1. 导读

设计一种模块或机制,使网络能够保持低参数和FLOPs,而不牺牲精度和吞吐量,仍然是一个挑战。为了应对这一挑战并利用特征映射通道中的冗余,我们提出了一种新的解决方案:部分通道机制(PCM)。具体来说,通过分裂操作,特征映射通道被分成不同的部分,每个部分对应不同的操作,例如卷积、注意、汇集和身份映射。基于这一假设,我们引入了一种新的部分注意卷积(PATConv ),它可以有效地将卷积和视觉注意结合起来。我们的研究表明,PATConv可以完全取代常规卷积和常规视觉注意,同时减少模型参数和触发器。此外,PATConv可以衍生出三种新类型的块:部分通道注意块(PAT_ch)、部分空间注意块(PAT_sp)和部分自我注意块(PAT_sf)。此外,我们提出了一种新的动态部分卷积(DPConv ),它可以自适应地学习不同层中分离通道的比例,以实现更好的折衷。在PATConv和DPConv的基础上,我们提出了一个新的混合网络家族,命名为PartialNet,它在ImageNet-1K分类上实现了优于一些SOTA模型的top-1精度和推理速度,并且在COCO数据集上的检测和分割方面都表现出色。

2. 效果展示

不同操作类型的比较。

我们的 PartialNet 在lmageNet-1K上实现了更高的精度和吞吐量权衡。

3. 主要贡献

• 我们提出了一种部分通道机制,并引入了部分注意力卷积(PATConv),该机制以并行方式将视觉注意力融入部分卷积中,这与以往工作的串行方式不同,能在提高推理速度的同时提升模型性能。

• 基于PATConv,我们开发了三种部分视觉注意力模块:PAT ch作为常规卷积和深度可分离卷积(DWConv)的替代方案展现出巨大潜力,PAT sp能以最低成本有效增强多层感知器(MLP)层,而PAT sf则融合了局部和全局特征,实现了更高的准确性。

• 为了在模型推理速度和准确性之间实现更好的权衡,我们提出了一种新型动态部分卷积(DPConv),它可以根据约束条件(如模型参数)自适应地学习不同层的分割比例。 推荐课程: 彻底搞懂大模型数学基础剖析、原理与代码讲解

• 基于上述方法,我们设计了一个名为PartialNet的新型混合模型系列,该系列在标准视觉基准测试上的表现优于大多数高效的当前最优技术(SOTA)模型。

4. 方法

我们首先介绍了在部分卷积中引入视觉注意力的动机,并提出了我们新颖的部分注意力卷积(PATConv)机制,该机制通过对特征通道的子集应用注意力来平衡计算效率和准确性。接下来,我们详细介绍了PATConv中的三个创新模块:部分通道注意力模块(PAT ch),它将3×3卷积与通道注意力相结合,以实现全局空间交互;部分空间注意力模块(PAT sp),它结合1×1卷积与空间注意力,以高效地混合通道信息;部分自注意力模块(PAT sf),它选择性地应用自注意力来扩展模型的感受野。我们还进一步介绍了一种具有自适应通道分割比例的可学习动态部分卷积(DPConv),以提高模型的灵活性。最后,我们描述了整体PartialNet架构,该架构分为四个层次阶段,并集成了PATConv模块,旨在实现不同模型变体之间稳健的速度-准确性权衡。

DPConv的生成过程

5. 实验结果

6. 总结

特征选择理论表明,特征之间可能存在一定程度的冗余和关联。虽然这种几余没有提供额外的信息增益,但它会增加计算复杂度并增加过拟合的风险。我们的研究从实现的角度基于这一理论,实现了最佳性能和计算效率的平衡。具体来说,我们引入了部分通道机制,并提出了部分注意力卷积,它将视觉注意力策略性地整合到卷积过程中,以增强特征效用。此外,我们提出了动态部分卷积,这是一种自适应方法,可以学习模型中不同层中通道的最佳分割比例。通过这些创新,我们开发了PartialNet架构,它在ImageNet-1K分类以及COCO检测和分割任务上超越了最近的高效网络。这突显了部分通道机制在达到最佳平衡方面的有效性。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 :深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,已沉淀6年,星球内资料包括: 秘制视频课程近20门 (包括 结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云







请到「今天看啥」查看全文