专栏名称: 学姐带你玩AI

这里有人工智能前沿信息、算法技术交流、机器学习/深度学习经验分享、AI大赛解析、大厂大咖算法面试分享、人工智能论文技巧、AI环境工具库教程等……学姐带你玩转AI！

新一代大核卷积反超ViT和ConvNet！同参数量下性能、精度、速度完胜

学姐带你玩AI · 公众号 · · 2024-06-18 18:27

正文

大核卷积网络是CNN的一种变体，也是深度学习领域的一种重要技术 ，它使用较大的卷积核来处理图像数据，以提高模型对视觉信息的理解和处理能力。

这种类型的网络能够捕捉到更多的空间信息，因为它的大步长和大感受野可以一次性覆盖图像的更多区域。比如美团提出的PeLK网络，内核大小可以达到101x101，同参数量下性能反超 ViT，目前已被CVPR 2024收录。

更值得一提的，大核卷积网络不仅在性能上有所提升，在ImageNet分类等任务上，也展现出了优于ViT和ConvNet架构的效果。比如腾讯+港中文提出的UniRepLKNet，只用ImageNet-22K预训练，精度和速度SOTA，ImageNet达到88%。

当然效果惊人的成果远不止这些，我这次挑选了 10个 大核卷积网络最新创新方案 ，开源的项目代码都有，供有论文需求的同学参考学习。

扫码添加小享，回复“ 大核卷积 ”

免费获取 全部论文+代码合集

PeLK: Parameter-efficient Large Kernel ConvNets with Peripheral Convolution

方法： 论文提出了外围卷积，通过参数共享有效减少了密集网格卷积 90% 以上的参数数量，并设法将内核尺寸扩大到极大。在此基础上，作者提出了参数高效的大核网络（PeLK）。

创新点：

密集网格卷积(Dense Grid Convolution)相较于条纹卷积(Stripe Convolution)具有持续的优势，无论是在多种核大小下还是在不同的任务中，密集网格卷积都能够表现出更好的性能。
引入人类外周视觉机制(Peripheral Vision)的概念来提高大核卷积网络的参数效率，通过参数共享有效地减少了密集网格卷积的参数数量，并且能够将卷积的复杂性从O(K^2)降低到O(log K)。

UniRepLKNet: A Universal Perception Large-Kernel ConvNet for Audio, Video, Point Cloud, Time-Series and Image Recognition

方法： 论文探索了大卷积核的卷积神经网络（ConvNet）的架构设计和在多模态领域的通用感知能力，填补了现有大卷积核ConvNet的架构设计不足和在非视觉领域的应用研究空白，通过提出四个架构准则设计了UniRepLKNet，并在图像识别、时间序列预测和音频识别等任务上取得了领先的性能，验证了大卷积核的重要性和ConvNet的通用感知能力。

创新点：

大核ConvNet架构设计：

提出了四个关于大核ConvNet设计的指导原则，其中核心原则是利用大核与小核的本质区别，即大核可以在不加深网络的情况下实现更广阔的感受野。
根据这些指导原则，提出的大核ConvNet在图像识别任务中取得了领先的性能，相比于其他强大的竞争模型，具有更好的性能和更高的速度。

大核ConvNet在多模态领域的普适感知能力：

发现大核ConvNet在原本不擅长的领域具有出色的性能表现。通过特定的模态相关预处理方法，该模型在时间序列预测和音频识别任务上实现了业界领先的性能，即使没有进行模态特定的架构定制化。
证明了大核ConvNet在多模态任务中的卓越性能，为ConvNet在新领域的应用开辟了新的可能性。

扫码添加小享，回复“ 大核卷积 ”

免费获取 全部论文+代码合集

LSKNet: Large Selective Kernel Network for Remote Sensing Object Detection

方法： 论文主要介绍了一种用于遥感目标检测的新方法，即大型选择性核网络（LSKNet）。LSKNet的整体架构基于最近流行的结构，并使用了重复的构建块。作者通过定义Rc作为期望选择RF区域与GT边界框区域的比例来研究每个目标类别的感受野范围。

创新点：

作者首次尝试将大核卷积应用于遥感目标检测，并研究了其在这一领域的重要性。通过将大核卷积分解为两个深度卷积核，作者提出了一种适用于遥感的LSKNet架构，能够充分利用遥感图像的特点，实现对不同对象类型的广泛和可适应的上下文理解。
作者提出了一种空间选择机制，用于在不同尺度上从大卷积核中选择特征图。通过通道平均池化和通道最大池化，作者有效地提取了特征之间的空间关系，并使用卷积层将池化特征转换为空间注意力图。然后，通过相应的空间选择掩码，对分解的大核卷积特征进行加权并融合，以获得最终的关注特征。

新一代大核卷积反超ViT和ConvNet！同参数量下性能、精度、速度完胜

正文

PeLK: Parameter-efficient Large Kernel ConvNets with Peripheral Convolution

UniRepLKNet: A Universal Perception Large-Kernel ConvNet for Audio, Video, Point Cloud, Time-Series and Image Recognition

LSKNet: Large Selective Kernel Network for Remote Sensing Object Detection

请到「今天看啥」查看全文