公众号ID
|
计算机视觉研究院
学习群
|
扫码在主页获取加入方式
Column of Computer Vision Institute
Hyper-YOLO
在其骨干网络中引入了所提出的混合聚合网络(
MANet
)以增强特征提取能力,并在其颈部引入了基于超图的跨层和跨位置表征网络(
HyperC2Net
)。
HyperC2Net
可在五个尺度上运行,突破了传统的网格结构,允许在不同层级和位置之间进行复杂的高阶交互。
我们提出了
Hyper-YOLO
,这是一种全新的目标检测方法,它集成了超图计算以捕捉视觉特征之间复杂的高阶相关性。尽管传统的
YOLO
模型功能强大,但其颈部设计存在局限性,限制了跨层特征的融合以及高阶特征相互关系的挖掘。为应对这些挑战,我们提出了超图计算赋能的语义收集与传播(
HGC - SCS
)框架,该框架将视觉特征图转换到语义空间,并构建一个超图用于高阶消息传播。这使模型能够同时获取语义信息和结构信息,超越了传统的以特征为中心的学习方式。
Hyper-YOLO
在其骨干网络中引入了所提出的混合聚合网络(
MANet
)以增强特征提取能力,并在其颈部引入了基于超图的跨层和跨位置表征网络(
HyperC2Net
)。
HyperC2Net
可在五个尺度上运行,突破了传统的网格结构,允许在不同层级和位置之间进行复杂的高阶交互。
这些组件的协同作用使
Hyper-YOLO
在各种规模的模型中成为了最先进的架构,在
COCO
数据集上的卓越性能证明了这一点。具体而言,
Hyper-YOLO-N
显著优于先进的
YOLOv8-N
和
YOLOv9-T
,平均精度(
APval
)分别提高了
12%
和
9%
。源代码可在
https://github.com/iMoonLab/Hyper
- YOLO
获取。
YOLO
系列
作为目标检测领域的主流方法脱颖而出,它具有诸多优势,能满足各种不同的应用需求。
YOLO
的架构主要由两个部分组成:骨干网络
和颈部网络
。骨干网络旨在进行特征提取,并且已经得到了广泛的研究,而颈部网络则负责多尺度特征的融合。
这些特征为检测各种尺寸的物体提供了坚实的基础。本文特别强调颈部网络,它对于提升模型跨尺度检测物体的能力至关重要。当代的
YOLO
模型在颈部采用了路径聚合网络(
PANet
)
,该网络利用自上而下和自下而上的路径,促进跨尺度信息的全面融合。然而,
PANet
的能力主要局限于相邻层之间的特征融合,无法充分解决跨层特征整合的问题。
相比之下,以
Gold-YOLO
为代表的收集
-
分发式颈部设计,虽然促进了层间信息交换,但在特征图内的跨位置交互方面仍存在不足。此外,它也没有充分挖掘特征之间相互关系的潜力,尤其是涉及高阶相关性的部分。高阶相关性指的是不同尺度、位置和语义层面的特征之间存在的复杂且往往是非线性的关系,这些关系对于理解视觉数据中的深层上下文和交互至关重要。人们注意到,低层次视觉特征及其相关性的协同表示在目标检测任务中起着关键作用。将这些基本特征与高层次语义信息相结合,对于在给定场景中准确识别和定位物体至关重要。在许多计算机视觉任务中,挖掘低层次特征背后的高阶相关性以进行语义分析,仍然是一个具有挑战性但又必不可少的课题。这种普遍忽视挖掘此类高阶关系的现象,可能会限制视觉任务的性能表现。
在实际应用中,超图
常被用于表示复杂的高阶相关性,因为与简单图相比,超图具有更强的表达能力。简单图中的边只能连接两个顶点,这极大地限制了其表达能力,而超图中的超边可以连接两个或更多顶点,能够对更复杂的高阶关系进行建模。与简单图相比,超图可以捕捉多个实体之间更丰富的交互,这对于需要理解复杂多向关系的任务至关重要,例如计算机视觉中的目标检测,其中特征图之间的跨层和跨位置相关性至关重要。
与以往大多数专注于增强特征提取骨干网络的工作不同,我们提出了超图计算赋能的语义收集与传播(
HGC - SCS
)框架。该框架的构思巧妙,它将视觉骨干网络提取的特征图转换到抽象语义空间,然后构建复杂的超图结构,以此来增强这些特征图。超图作为在这个语义空间中实现特征间高阶消息传播的通道。这种方法赋予视觉骨干网络吸收语义信息和复杂结构信息的双重能力,从而克服了传统的以语义特征为中心的学习方式的局限性,突破了传统的性能界限。
基于上述
HGC-SCS
框架,我们推出了
Hyper-YOLO
,这是一种基于超图计算的新型
YOLO
目标检测方法。
Hyper-YOLO
首次将超图计算集成到视觉目标检测网络的颈部组件中。通过对骨干网络提取的特征图中固有的复杂高阶关联进行建模,
Hyper-YOLO
大幅提升了目标检测性能。
A.
预备知识
YOLO
系列方法
通常由两个主要部分组成:骨干网络和颈部网络。骨干网络
负责提取基本的视觉特征,而颈部网络
则用于融合多尺度特征,以实现最终的目标检测。本文针对这两个部分提出了具体的改进策略。为了便于本文中的描述,我们将颈部网络的三个尺度输出表示为
{
N
3
,
N
4
,
N
5
}
,分别对应小尺度、中尺度和大尺度的检测。在骨干网络的特征提取阶段,我们进一步将其分为五个阶段:
{
B
1
,
B
2
,
B
3
,
B
4
,
B
5
}
,它们代表不同语义层次的特征。数字越大,表示该特征是由网络更深层提取的更高层次的语义特征。
B. Hyper-YOLO
概述
我们的
Hyper-YOLO
框架保留了典型
YOLO
方法的整体架构,包括骨干网络和颈部网络,如下图
所示。
对于给定的一幅图像,
Hyper-YOLO
的骨干网络将所提出的混合聚合网络(
MANet
)作为其核心计算模块,从而增强了
YOLOv8
中传统
C2f
模块的特征辨别能力。与传统的
YOLO
架构不同,
Hyper-YOLO
接收由五个主要特征集组成的集合
{
B
1
,
B
2
,
B
3
,
B
4
,
B
5
}
。
Hyper-YOLO
的颈部网络(
HyperC2Net
)采用了一种全新的方式,它基于超图计算理论,在这五个特征集之间融合了跨层和跨位置信息,最终生成了三个不同尺度的最终语义特征
{
N
3
,
N
4
,
N
5
}
。随后,这些具有层次结构的语义特征将被用于最终的目标检测任务。
C.
混合聚合网络
对于我们的
Hyper - YOLO
的骨干网络,为了增强基础网络的特征提取能力,我们设计了混合聚合网络(
MANet
),如下图
所示。
该架构将三种典型的卷积变体进行了协同融合:用于通道级特征重校准的
1×1
旁路卷积、用于高效处理空间特征的深度可分离卷积(
DSConv
),以及用于增强特征层次集成的
C2f
模块。在训练阶段,这种融合产生了更加多样化且丰富的梯度流,显著增强了在五个关键阶段中每个阶段基础特征所包含的语义深度。我们的
MANet
可以公式化表示如下:
最后,我们通过拼接操作,然后进行一次
1×1
卷积,对这三种类型特征的语义信息进行融合和压缩,以生成通道数为
2
c
的
X
out
,具体如下:
D.
基于超图的跨层和跨位置表征网络
对于
Hyper-YOLO
的颈部网络,为了全面融合来自骨干网络的跨层和跨位置信息,我们进一步提出了基于超图的跨层和跨位置表征网络(
HyperC2Net
),如下图
所示。
HyperC2Net
是所提出的
HGC-SCS
框架的一种实现方式,它能够捕捉语义空间中那些潜在的高阶相关性。
-
超图构建
:我们的骨干网络被划分为五个不连续的阶段。这些阶段的特征图表示为
{
B
1
,
B
2
,
B
3
,
B
4
,
B
5
}
。为了利用超图计算来阐明基础特征之间复杂的高阶关系,我们首先对这五个基础特征进行通道维度的拼接,从而合成跨层视觉特征。超图
G
={
V
,
E
}
通常由其顶点集
V
和超边集
E
来定义。在我们的方法中,我们解构基于网格的视觉特征,以构成超图的顶点集
V
。为了对语义空间内的邻域关系进行建模,使用一个距离阈值从每个特征点构建一个
ϵ
球,它将作为一条超边,如下图
所示。
ϵ
球是一个超边,它包含了与中心特征点在一定距离阈值内的所有特征点。整个超边集的构建可以定义为
E
={
ball
(
v
,
ϵ
)∣
v
∈
V
}
,其中
ball
(
v
,
ϵ
)={
u
∣∣∣
x
u
−
x
v
∣∣
d
<
ϵ
,
u
∈
V
}
表示指定顶点
v
的邻域顶点集。
∣∣
x
−
y
∣∣
d
是距离函数。在计算中,超图
G
通常由其关联矩阵
H
来表示。
超图卷积
:为了促进在超图结构上的高阶消息传递,我们利用一种典型的带有额外残差连接的空间域超图卷积
,对顶点特征进行高阶学习,具体如下:
为了计算方便,两阶段超图消息传递的矩阵形式可以定义为:
HGC - SCS
框架的一个实例
:通过结合前面定义的超图构建和卷积策略,我们引入了
HGC - SCS
框架的一个简化实例,称为基于超图的跨层和跨位置表征网络(
HyperC2Net
),其总体定义如下:
在我们的
HyperC2Net
中,
X
mixed
本质上包含了跨层信息,因为它是来自多个层次的骨干网络特征的融合。此外,通过将网格特征解构为语义空间内的一组特征点,并基于距离构建超边,我们的方法允许在点集中不同位置的顶点之间进行高阶消息传递。这种能力有助于捕捉跨位置信息,丰富了模型对语义空间的理解。
在
COCO Val2017
验证集上的目标检测结果如下所示,我们得出了四个主要结论。
上表
最先进的
YOL
方法对比。术语
“#PARA.”