深度学习如何创新?如何
水模型
?总结来说就八个字:
排列组合,会讲故事。
说直白点,就是
缝模块。
先看看别人怎么做,然后根据自己的实际情况将这些模块来一波随机组合,这样效率会高很多。我这边已经整理好了
80个
常用有效的即插即用模块
,包括多尺度、注意力机制、卷积...代码都是可复现的。
需要的同学
扫码添加小享
回复“模块80”即领
那么深度学习到底该如何创新?我们具体可以从这三个方面入手:
1.创造新的模块
这个方向适合大神以及有功能强大的算力的玩家,大多数人都是hold不住的,如果你是想要快速搞定论文,那我是不推荐的。
2.创造新的缝合网络的方法
这点也是我最推荐各位去做的,既然创造新的模块非人人可行,那在缝合网络的基础上做改进总会了吧。
这里给大家列举一下缝合网络的几种常见方式:
串行
串行缝合将多个神经网络模块按顺序连接起来,形成一个统一的网络结构。它提供了一种相对简单直接的方法来整合多个网络模块,有助于提升模型的性能,同时保持了一定的灵活性。这种方法特别适合于那些希望快速原型开发或需要在资源受限的情况下运行高效模型的场景。
并行(推荐)
并行缝合是一种将不同的网络模块同时运行,然后合并它们的输出的方法,主要思想是利用多个网络模块的计算能力,通过同时处理数据来提高效率和性能。这种方法特别适合于需要处理大量数据或实时性要求较高的应用场景。
代表性论文
标题:
Inception Transformer
方法:
本文介绍了一种新颖的Transformer骨干网络——iFormer。iFormer采用通道分离机制,将卷积/最大池化和自注意力简单高效地结合起来,使得Transformer在频谱中更加关注高频信息,并扩展了其感知能力。基于灵活的Inception token mixer,作者进一步设计了频率斜坡结构,实现了在所有层之间高频和低频成分的有效权衡。
创新点:
-
Inception Token Mixer:
通过引入Inception Token Mixer,将卷积和最大池化的优势与Transformer相结合,从而增强了ViTs在频谱中的感知能力。通过将输入特征沿通道维度进行分割,并分别将分割的组件馈送到高频混合器和低频混合器,实现了高频和低频信息的并行建模。
-
频率斜坡结构:
为了有效权衡不同层之间的高频和低频成分,引入了频率斜坡结构。该结构通过逐渐减小馈送到高频混合器的维度并增加馈送到低频混合器的维度,使底层更多地捕捉高频细节,而顶层更多地建模低频全局信息。这种结构能够在不同层之间有效地平衡高频和低频成分。
交互
交互缝合是一种将不同的网络模块以交互的方式进行组合的方法,它通常涉及模型架构的创新和模块的整合,其核心在于不同网络模块之间的相互作用和信息交换。这种方法适合于需要综合利用多种信息源或模型的场景,例如在自然语言处理、图像识别等领域中的应用。
需要80个即插即用模块
的
同学
扫码添加小享
,回复“模块80”即领
多尺度融合(推荐)
多尺度融合网络的优势在于能够同时捕捉到图像的细节信息和全局上下文信息,这对于许多视觉任务来说是非常重要的。例如,在物体检测任务中,小尺度特征有助于定位物体的精确位置,而大尺度特征有助于理解物体的语义信息。
代表性论文
标题:
Centralized Feature Pyramid for Object Detection
方法:
论文介绍了目标检测中的一个新方法,称为CFP。该方法基于全局显式的中心特征调节,通过引入轻量级的多层感知机(MLP)来捕捉全局的长程依赖关系,并使用可学习的视觉中心来捕捉输入图像的局部角落区域。CFP通过在自底向上的方式中使用来自最深层内部特征的显式视觉中心信息来调节所有前端浅层特征,从而能够捕捉全局的长程依赖关系,并有效地获得全面而具有区分性的特征表示。
创新点:
-
作者提出了一种
基于全局显式中心化特征调节的CFP目标检测方法
,该方法能够捕捉全局长距离依赖关系,并有效地获取全面而有区分性的特征表示。
-
作者提出了一种
空间显式的视觉中心方案
,利用轻量级MLP捕捉全局长距离依赖关系,并使用可并行学习的视觉中心来捕捉输入图像的局部角区域。
-
作者提出了一种
自顶向下的特征金字塔的GCR方法
,利用从最深层内部特征获得的显式视觉中心信息来调节所有前端浅层特征。
3.相同模块用于不同的场景
举个例子,目前基于Mamba的魔改已经从NLP领域应用到了CV领域,具有代表性的研究成果就是U-Mamba。
论文:
U-Mamba: Enhancing Long-range Dependency for Biomedical Image Segmentation