替代卷积？替代注意力？西交开源PartialNet：让你的网络计算更少、性能更优

3D视觉工坊 · 公众号 · · 2025-02-06 07:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：Partial Channel Network: Compute Fewer, Perform Better

作者：Haiduo Huang, Tian Xia, Wenzhe zhao, Pengju Ren

机构：Xi’an Jiaotong University ·

原文链接：https://arxiv.org/abs/2502.01303

代码链接：https://github.com/haiduo/PartialNet

1. 导读

设计一种模块或机制，使网络能够保持低参数和FLOPs，而不牺牲精度和吞吐量，仍然是一个挑战。为了应对这一挑战并利用特征映射通道中的冗余，我们提出了一种新的解决方案:部分通道机制(PCM)。具体来说，通过分裂操作，特征映射通道被分成不同的部分，每个部分对应不同的操作，例如卷积、注意、汇集和身份映射。基于这一假设，我们引入了一种新的部分注意卷积(PATConv ),它可以有效地将卷积和视觉注意结合起来。我们的研究表明，PATConv可以完全取代常规卷积和常规视觉注意，同时减少模型参数和触发器。此外，PATConv可以衍生出三种新类型的块:部分通道注意块(PAT_ch)、部分空间注意块(PAT_sp)和部分自我注意块(PAT_sf)。此外，我们提出了一种新的动态部分卷积(DPConv ),它可以自适应地学习不同层中分离通道的比例，以实现更好的折衷。在PATConv和DPConv的基础上，我们提出了一个新的混合网络家族，命名为PartialNet，它在ImageNet-1K分类上实现了优于一些SOTA模型的top-1精度和推理速度，并且在COCO数据集上的检测和分割方面都表现出色。

2. 效果展示

不同操作类型的比较。

我们的 PartialNet 在lmageNet-1K上实现了更高的精度和吞吐量权衡。

3. 主要贡献

• 我们提出了一种部分通道机制，并引入了部分注意力卷积（PATConv），该机制以并行方式将视觉注意力融入部分卷积中，这与以往工作的串行方式不同，能在提高推理速度的同时提升模型性能。

• 基于PATConv，我们开发了三种部分视觉注意力模块：PAT ch作为常规卷积和深度可分离卷积（DWConv）的替代方案展现出巨大潜力，PAT sp能以最低成本有效增强多层感知器（MLP）层，而PAT sf则融合了局部和全局特征，实现了更高的准确性。

• 为了在模型推理速度和准确性之间实现更好的权衡，我们提出了一种新型动态部分卷积（DPConv），它可以根据约束条件（如模型参数）自适应地学习不同层的分割比例。推荐课程：彻底搞懂大模型数学基础剖析、原理与代码讲解。

• 基于上述方法，我们设计了一个名为PartialNet的新型混合模型系列，该系列在标准视觉基准测试上的表现优于大多数高效的当前最优技术（SOTA）模型。

4. 方法

我们首先介绍了在部分卷积中引入视觉注意力的动机，并提出了我们新颖的部分注意力卷积（PATConv）机制，该机制通过对特征通道的子集应用注意力来平衡计算效率和准确性。接下来，我们详细介绍了PATConv中的三个创新模块：部分通道注意力模块（PAT ch），它将3×3卷积与通道注意力相结合，以实现全局空间交互；部分空间注意力模块（PAT sp），它结合1×1卷积与空间注意力，以高效地混合通道信息；部分自注意力模块（PAT sf），它选择性地应用自注意力来扩展模型的感受野。我们还进一步介绍了一种具有自适应通道分割比例的可学习动态部分卷积（DPConv），以提高模型的灵活性。最后，我们描述了整体PartialNet架构，该架构分为四个层次阶段，并集成了PATConv模块，旨在实现不同模型变体之间稳健的速度-准确性权衡。

DPConv的生成过程

5. 实验结果

6. 总结

特征选择理论表明，特征之间可能存在一定程度的冗余和关联。虽然这种几余没有提供额外的信息增益，但它会增加计算复杂度并增加过拟合的风险。我们的研究从实现的角度基于这一理论，实现了最佳性能和计算效率的平衡。具体来说，我们引入了部分通道机制，并提出了部分注意力卷积，它将视觉注意力策略性地整合到卷积过程中，以增强特征效用。此外，我们提出了动态部分卷积，这是一种自适应方法，可以学习模型中不同层中通道的最佳分割比例。通过这些创新，我们开发了PartialNet架构，它在ImageNet-1K分类以及COCO检测和分割任务上超越了最近的高效网络。这突显了部分通道机制在达到最佳平衡方面的有效性。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。