摘要
近期零样本和少样本分类的进展很大程度上依赖于预训练视觉语言模型(VLMs)如CLIP的成功。 由于缺乏大规模数据集,针对事件相机数据的此类模型训练仍然不可行。 因此,跨模态地将现有VLMs应用于事件视觉是一个重要的研究挑战。 在这项工作中,我们介绍了EventCLIP,这是一种利用CLIP进行零样本和少样本基于事件的物体识别的新方法。 我们首先通过将原始事件转换为基于二维网格的表示来将CLIP的图像编码器泛化到事件数据。 为进一步提高性能,我们提出了一种特征适配器,用于聚合事件帧中的时间信息并细化文本嵌入,以更好地与视觉输入对齐。 我们在N-Caltech、N-Cars和N-ImageNet数据集上评估了EventCLIP,取得了最先进的少样本性能。 当在整个数据集上微调时,我们的方法优于所有现有的事件分类器。 此外,我们探索了EventCLIP的实际应用,包括鲁棒的事件分类和无标签事件识别,其中我们的方法超越了专门为此类任务设计的先前基线。
1
引言
基于事件的相机由于其高时间分辨率、低功耗和高动态范围特性,最近在计算机视觉领域引起了极大的兴趣
[13]
。 基于事件的视觉在各种应用中显示出可喜的成果,例如物体识别
[16, 32, 58]
、检测
[48, 19, 38]
、跟踪
[12, 15, 18]
和光流估计
[85, 20, 3]
。 然而,这种新型成像方式也带来独特的挑战,包括需要专门的模型来处理事件的异步特性,以及缺乏大规模数据集。 与经典的识别问题一样,新捕获的事件数据可能包含训练集中不存在的类别中的物体。 在这种情况下,训练好的模型将会失效,并且每次引入新的目标类别就重新训练模型可能是不可行的,这就促使了基于事件的零样本和少样本识别系统的需求。
(a)
开集和鲁棒分类
(b)
从未标记数据中学习
图1
现有的基于事件的分类器是从封闭集数据集上从头开始训练的。 它们在具有未见类别、相机运动或光照条件的事件上会失效。 相反,我们的方法利用预训练的CLIP进行零样本或少样本开集事件识别。 此外,EventCLIP可以应用于:(a) 通过与训练好的模型集成进行鲁棒事件分类,以及 (b) 通过对生成的伪标签进行训练进行无标签学习。
在基于帧的视觉中,预训练的视觉语言模型(VLMs),例如CLIP
[50]
,在零样本和少样本学习任务中取得了显著的成功。 这些模型在大型数据集上进行训练,试图将配对的图像和文本映射到一个对齐的特征空间。 通过利用未见物体与具有新类别名称的文本之间的特征相似性,实现了开集零样本分类
[50, 29]
。 最近,一些工作设计了数据高效的方法,以便在少样本学习环境下调整CLIP,以获得更高的精度
[14, 83, 82, 78, 69]
。 然而,目前还没有可用的大型事件文本数据集,这使得无法从头开始训练这种事件语言模型。 这促使我们提出一个问题:可以将二维预训练VLMs迁移到基于事件的视觉中,并实现零样本或少样本目标识别吗?
在这项工作中,我们提出了EventCLIP,作为首次尝试将CLIP引入基于事件的视觉理解。 为了弥合异步事件数据和CLIP基于帧的输入表示之间的差距,我们将事件流分割成多个时间窗口,并将每个时间窗口转换成一个二维帧。 遵循
Radford等人[50]
的方法,通过将类别名称放入手工制作的模板中构建文本提示,并将文本特征提取为零样本分类器的权重。 每个事件帧由CLIP单独分类,最终结果通过简单的投票获得。
尽管EventCLIP可以实现零样本识别,但其性能仍然落后于在事件领域数据上训练的现有分类器。 因此,我们提出学习轻量级适配器来细化预训练的CLIP特征。 与之前仅适应一个图像特征
[14]
或以预定义顺序适应固定数量特征
[79]
的工作不同,我们事件特征的数量和顺序取决于摄像机轨迹。 因此,我们设计了一个基于Transformer的适配器来聚合来自多个帧的时间信息。 我们还微调文本特征作为分类器中输出全连接层的权重。 通过这些设计,与现有的基于事件的分类器相比,EventCLIP实现了更高效的数据少样本学习。
最后,我们探索了EventCLIP的更多应用。 我们发现,CLIP中从互联网规模数据中获得的二维预训练知识与纯粹在事件数据上训练的模型中的领域知识具有协同作用。 因此,我们直接集成EventCLIP和现有的事件分类器,这在具有未见摄像机运动和闪电的N-ImageNet鲁棒性子集
[32]
上始终将它们的准确率提高了10%以上。 此外,由于EventCLIP可以对未见物体进行分类,我们用它来标记原始事件。 利用事件的时空特性,我们能够选择高质量的伪标签,并取得最先进的无监督分类结果。
总之,这项工作做出了四个主要贡献:
(i)
使用CLIP的第一个零样本开放世界基于事件的物体识别方法,
(ii)
一个基于Transformer的特征适配器,专门用于事件时间信息的聚合,
(iii)
在三个数据集上取得最先进的少样本和微调结果,以及
(iv)
显著提高了N-ImageNet子集上的鲁棒性和无监督分类精度。
2
相关工作
我们简要回顾了基于事件的识别、一般视觉和基于事件的视觉桥接以及基于CLIP的迁移学习的最新工作,这在附录
A
中进行了进一步扩展。
基于深度学习的事件分类。
现有的基于事件的分类器根据对事件异步性的利用,主要可以分为两类:同步方法和异步方法。 同步模型将事件聚合到基于网格的表示中,然后使用标准模块,例如卷积神经网络 (CNN)
[58, 16, 17, 32, 27]
。 为了实现高效且具有表达力的事件到帧的转换,人们做出了大量努力,例如二值化事件发生
[6]
、事件计数
[41]
和排序的事件时间戳
[1]
。 最近,EST
[16]
通过端到端可学习的事件到帧转换管道取得了最先进的结果。 为了提高对数据噪声的鲁棒性,DiST
[32]
提出利用时空关系抑制噪声事件,这在数据采集中的相机运动和光照变化下已被证明是有效的。 与异步方法
[39, 56, 42]
相比,同步模型在各个数据集上都取得了持续更好的结果。 由于我们的主要目标是实现高精度而不是效率,因此我们在实验中采用具有代表性的同步基于事件的分类器作为基线。
弥合通用视觉和基于事件的视觉。
受经典计算机视觉巨大成功的启发,一些工作已经将基于帧的视觉技术引入到事件数据处理中。 一些论文侧重于从事件中重建自然图像,然后在转换后的帧上应用传统的深度模型
[53, 54, 60, 57, 68, 5]
。 但是,它们通常会引入较大的计算开销,这与事件相机的低延迟特性相矛盾。 与我们的方法更接近的是将从图像学习到的知识转移到基于事件的模型的方法
[27, 65, 61, 76, 77, 43]
。 然而,它们要么需要图像和事件的配对记录,要么需要图像数据上的大量标注。 在这项工作中,我们利用在 RGB 图像-文本对上预训练的 CLIP 进行数据高效的基于事件的分类。 我们的方法通过简单的计数将事件转换为帧,并直接应用 CLIP 进行零样本分类。 通过少样本特征适应,我们可以进一步提升其性能,而无需配对的RGB图像或大量的标注。
基于CLIP的少样本迁移学习。
迁移学习旨在利用大型预训练模型来促进数据稀缺场景下的学习。 在基于事件的目标识别中,现有方法也利用在ImageNet
[9]
的RGB图像上预训练的模型作为其骨干网络以提高性能
[41, 16, 32, 1]
。 CLIP
[50]
在数百万对图像文本对上进行训练,学习可用于下游任务的可迁移表示。 为了进一步提高其准确性,一些方法
[83, 82, 73]
插入可学习的文本符元来执行特定于任务的提示微调,这需要在繁重的文本编码器上进行反向传播。 CLIP-Adapter
[14]
、Tip-Adapter
[78]
和 WiSE-FT
[69]
则学习轻量级的CLIP特征适配器。
除了二维图像分类外,CLIP还扩展到二维检测
[23, 84, 31]
、分割
[51, 80]
和视频分析
[66, 30]
。 我们的工作受到PointCLIP
[79, 87]
的启发,它将点云投影到多视图图像中,用于基于CLIP的零样本和少样本三维形状识别。 与PointCLIP不同,事件数据通常只捕获物体的边界信息,这比点云带来了更大的域差异,因为点云通常描绘完整的物体表面。 此外,我们设计了一个基于Transformer的适配器用于事件时间信息的融合,而PointCLIP由于其多视图投影遵循预定义的顺序,因此简单地使用了MLP。
3
方法
EventCLIP建立在大型预训练CLIP
[50]
(
Sec.
3.1
) 的基础上,并将事件流转换为二维图像,用于零样本事件理解(
Sec.
3.2
)。 当提供少量标记示例时,我们学习轻量级特征适配器以进一步提高少样本精度(
Sec.
3.3
)。 最后,我们在
Sec.
3.4
中将EventCLIP扩展到更多任务,包括鲁棒的事件分类和无标签事件识别。 EventCLIP 的整体流程如图
Fig.
2
所示。
3.1
背景:基于CLIP的图像分类
CLIP的训练目标是将图像和文本映射到一个联合嵌入空间。 CLIP分别包含用于图像和文本输入的两个编码器。 在训练过程中,给定一批图像-文本对,CLIP使用对比损失最大化正样本对的嵌入之间的余弦相似度,同时最小化负样本对之间的余弦相似度。 CLIP在一个包含4亿个网络爬取的图像-文本数据集合上进行训练。 大规模预训练数据集使得能够整合各种视觉概念,从而增强学习到的特征在下游任务中的迁移能力。
由于CLIP被训练以匹配图像和文本特征,因此它自然地适用于零样本分类。 形式上,设
𝒇
𝒙
为CLIP的图像编码器为图像
𝒙
提取的图像特征。 同时,我们通过将类别名称放入预定义的模板(例如“
一张[CLASS]的照片
”)中来构建文本输入,并利用CLIP的文本编码器提取一组
K
特征
W
=
{
𝒘
i
}
i
=
1
K
,其中
K
表示类别数。 则给定图像
𝒙
预测类别
i
的概率计算如下:
其中
cos
(
⋅
,
⋅
)
表示两个向量之间的余弦相似度,
τ
是CLIP学习到的缩放因子。 零样本推理不需要任何领域内训练数据来微调模型,但在二维图像数据集上可以获得与完全监督基线具有竞争力的结果
[50]
。
3.2
零样本事件理解
事件识别方面的先前工作表明,原始事件可以转换为有意义的二维帧,例如边缘图
[13]
。 这促使我们提示在RGB域预训练的视觉语言模型来处理事件相机数据。 由于其公开可用性和在文献中的重要性,我们采用CLIP。 然而,正如我们在实验中将展示的那样,该方法也适用于其他视觉语言模型(VLMs)。
弥合模态差距。
事件相机记录每个感光像素的亮度变化,并输出一系列事件
ℰ
=
{
e
i
=
(
x
i
,
y
i
,
t
i
,
p
i
)
}
,每个事件由其空间位置
(
x
i
,
y
i
)
、触发时间戳
t
i
和极性
p
i
∈
{
−
1
,
1
}
参数化。 由于原始事件是异步和稀疏的,它们被表示为一个集合,这与CLIP所需的网格状表示不同。 为了弥合这种模态差距,我们将原始事件转换为二维帧。 具体来说,我们将事件流
ℰ
分割成
M
个时间窗口
{
ℰ
i
}
i
=
1
M
,方法是将每
N
个连续事件组合在一起。 与使用固定时间间隔相比,使用事件计数进行分组可以确保更好的抗相机速度鲁棒性
[32]
。 对于每个
ℰ
i
,我们通过计算每个像素的正负事件数量来构建一个2通道直方图。 为了获得一个3通道图像,我们首先将直方图归一化到
[
0
,
1
]
的范围,然后使用预定义的RGB颜色映射对其进行着色。 最后,按照
Klenk et al. [35]
,我们将空像素设置为纯白色,以获得更好的视觉质量。
零样本分类。
将原始事件转换为
M
二维帧后,我们利用CLIP的图像编码器提取其特征
F
=
{
𝒇
i
}
i
=
1
M
。 按照
Radford et al. [50]
,我们然后使用类名和手工制作的模板构建文本提示,并使用CLIP提取文本嵌入
W
=
{
𝒘
i
}
i
=
1
K
。 每个时间窗口的零样本预测可以使用公式
1
计算。 这里,文本模板应该反映关于事件数据的特定领域知识,例如转换后的帧的视觉属性。
为了获得最终的分类输出,我们需要聚合来自
M
个时间窗口的预测。 PointCLIP
[79, 87]
也面临着这个问题,因为它们将点云投影到多个视图。 它们只是分配超参数来权衡每个视图的重要性,这些超参数在整个数据集上是固定的。 这是可行的,因为他们考虑的3D点云都与规范姿态对齐,因此不同数据的投影视图遵循相同的顺序(例如,{前、右、后、左、上、下})。 然而,我们时间窗口的时间顺序取决于事件摄像机的轨迹,这在不同数据样本中变化很大,使得预定义的权重集次优。 受DeepSets
[75]
的启发,我们选择顺序不变的集合运算均值池化来平均所有时间窗口的分类概率作为最终预测输出。
图2
:
EventCLIP概述
。 给定原始事件
ℰ
,我们将它分成
M
个时间窗口并构建
M
个2通道事件直方图。 它们使用颜色映射转换为3通道RGB帧,并馈送到CLIP以获得图像特征
F
。同时,我们使用
K
个类别名称构建文本提示,并利用CLIP提取文本特征作为分类器权重
W
。
F
使用特征适配器
𝒯
更新以融合时间信息,其与
W
的余弦相似度作为分类输出。 在零样本设置下
𝒯
是恒等函数,在少样本学习中是Transformer编码器。 最终结果通过平均
M
帧的预测获得。
3.3
少样本特征自适应
通过事件到帧的转换流程,我们成功地将一个二维CLIP转换为针对“未见过”事件相机数据的零样本事件分类器。 然而,零样本EventCLIP的性能仍然低于专门训练的领域分类器。 为了缩小精度差距,我们考虑少样本设置,其中每个类别都有一些标记示例可用。 数据有限的情况下,不可能微调整个模型,这会导致严重的过拟合。 相反,我们只细化了冻结的CLIP模型提取的特征。
图像特征适配器。
我们的目标是将事件领域知识融入提取的图像特征
{
𝒇
i
}
i
=
1
M
中,以获得细化的表示
{
𝒇
i
∗
}
i
=
1
M
。 先前的工作只是应用一个多层感知器 (MLP) 来更新特征,因为每个样本只有一个特征向量(二维图像)
[14, 69]
,或者视觉特征遵循固定的顺序(三维点云)
[79, 87]
。 例如,PointCLIP 将多视图特征连接成一个向量,并将其馈送到基于 MLP 的适配器。 如果我们打乱投影视图的顺序,它们的性能会显著下降。 相反,如上所述,EventCLIP 的最终预测应该是
与顺序无关的
。 因此,我们的图像特征适配器的输出
{
𝒇
i
∗
}
i
=
1
M
对于输入特征
{
𝒇
i
}
i
=
1
M
应该
是置换等变的
。 此外,我们需要一个能够处理任意数量输入的架构,因为时间窗口的数量
M
在不同样本之间是变化的。 受最近基于 CLIP 的视频分类器
[30]
的启发,我们应用了一个轻量级的两层Transformer编码器
[64]
𝒯
来聚合事件流的时间信息。 为避免过拟合,我们将来自CLIP特征的残差连接到Transformer输出特征
{
𝒇
~
i
}
i
=
1
M
:
其中
α
是一个超参数,控制原始CLIP知识的比例。 应用视觉适配器后,我们使用更新的图像特征
{
𝒇
i
∗
}
i
=
1
M
和文本特征
W
来执行分类,就像在零样本设置中一样。 由于具有顺序不变性,我们的少样本EventCLIP 对数据采集过程中不同的相机运动也更鲁棒。
文本特征适配器。
最近,一些工作研究了CLIP文本分支的数据高效微调
[83, 82]
。 正如
He等人[25]
所指出的那样,所有这些方法的目标都是学习一个更好的分类器权重
W
=
{
𝒘
i
}
i
=
1
K
。 因此,我们遵循他们的方法,采用简单的分类器调优方法
[69]
,通过使用梯度下降法对
W
进行微调。 在我们的初步实验中,分类器调优确实达到了与更复杂的调优方法
[83, 73]
相媲美的性能,同时所需的计算量要少得多。
3.4
EventCLIP的扩展
鲁棒性分类。
现有的基于事件的分类器是从事件数据中从头开始训练的。 这些数据集通常是在有限的环境变化下捕获的
[32]
。 因此,当在看不见的环境中(例如光照或摄像机运动的变化)进行测试时,模型性能会急剧下降。 相反,CLIP是在互联网规模的数据上进行训练的,因此表现出对数据损坏的高鲁棒性。 因此,一个自然的想法是将这两个模型集成起来进行联合预测。 具体来说,我们简单地将预训练的基于事件的分类器和零样本或少样本EventCLIP预测的logit取平均值作为最终输出。 正如我们在实验中将展示的那样,特定领域的事件知识和二维预训练知识能够相互补充,从而实现最先进的模型鲁棒性。
无监督学习。
在许多实际场景中,我们不仅可以访问少量标记数据,还可以访问大量的未标记事件。 这方面的极端情况是无监督学习,其中我们只有原始事件,没有任何标签。 在这两种情况下,我们都可以利用EventCLIP创建伪标签,然后在其上微调模型。 为了生成可靠的伪标签,我们对事件的多个增强版本运行预测,并且只选择预测标签一致的数据。 正式地说,基于事件流在水平翻转和时间反转后应该保持相同的类别这一事实,给定一个事件,我们通过组合应用增强方法来创建它的四个版本。 然后,我们丢弃预测类别不一致的事件。 为了进一步提高标签质量,我们采用阈值
τ
来选择高置信度样本,并且每个类别只取前
k
个预测结果,以平衡模型训练。 请参见附录
C
以了解此设置中的实现细节。
4
实验
在
Sec.
4.2
中,我们研究了将CLIP的预训练知识迁移到事件相机数据的最佳设计选择。 然后,我们展示了少样本学习中有限训练数据带来的性能提升(
Sec.
4.3
)。 当有更多数据可用时,EventCLIP可以通过微调整个模型来达到最先进的精度(
Sec.
4.4
)。 在
Sec.
4.5
中,我们利用我们的方法通过集成来提高现有事件分类器的鲁棒性。 最后,在
Sec.
4.6
中,我们利用我们的方法演示了从原始事件中进行无监督学习。
4.1
实验设置
数据集。
在我们的实验中,我们使用了三个公共数据集:N-Caltech
[47]
、N-Cars
[58]
和N-ImageNet
[32]
。
N-Caltech
包含来自101个类别的8246个样本,由一个移动的180
×
240分辨率的ATIS系统
[49]
在显示来自原始RGB Caltech101数据集
[11]
的静态图像的显示器前记录。 相反,
N-Cars
提供了在现实世界城市环境中由ATIS系统记录的事件流。 其包含12336个“汽车”类别样本和11693个“背景”类别样本。 与N-Caltech类似,
N-ImageNet
是ImageNet的事件相机版本
[9]
。 作为最大的事件相机数据集,它包含178万个事件流和1000个类别。 数据是使用一部移动的480
×
640分辨率三星DVS Gen3事件相机采集的
[59]
。 N-ImageNet还提供了使用不同相机运动和亮度拍摄的测试集变体,作为评估事件分类器鲁棒性的基准。 请参见附录
B
,了解每个变体的详细描述。 对于少样本训练,我们从每个类别中随机抽取一个数据子集。 我们始终报告整个测试集的结果。
基线。
我们将EventCLIP与当前最先进的基于事件的分类器进行比较,即EST
[16]
、事件直方图
[41]
、排序时间曲面
[1]
和DiST
[32]
。 请参见附录
C
,了解其实现细节。 请注意,我们使用在RGB ImageNet
[9]
上预训练的ResNet34
[24]
作为所有基线的主干,遵循其原始论文。 对于DiST和EST,我们还测试了更大的主干,例如ResNet101和ViT-L
[10]
,但正如稍后将显示的那样,没有观察到明显的改进。 我们将在下面每个任务中介绍其他基线。
我们的实现细节。
为了将事件流转换为帧,我们将每个时间窗口的事件数量
N
分别设置为N-Caltech上的20000、N-Cars上的10000和N-ImageNet上的70000。 这考虑了每个数据集的事件相机分辨率。 为了对事件进行着色,即,将 2 通道事件直方图转换为 3 通道 RGB 图像,我们只需使用灰度颜色映射,将正负事件计数都乘以 [127, 127, 127]。 对于预训练的 CLIP,我们采用带有 ViT-L/14
[10]
图像编码器的变体。 我们选择“
[CLASS] 的点云图像
”作为文本模板。
Dataset
N-Caltech
N-Cars
N-ImageNet
Acc.
69.67
82.28
20.78
表 1:
EventCLIP 在 N-Caltech、N-Cars 和 N-ImageNet 上的零样本分类精度
(%),采用我们最佳设置。
Dataset
N-Caltech
N-ImageNet
N
(
×
10
3
)
15
20
25
50
70
80
0-shot Acc.
69.87
69.67
69.33
20.04
20.78
20.61
10-shot Acc.
84.98
85.62
84.93
27.83
28.63
27.62
表 2:
关于事件时间窗口大小的消融实验
N
。我们报告零样本和十样本精度(%)作为度量。
Dataset
N-Caltech
N-ImageNet
Method
Gray
R-B
Learn
Gray
R-B
Learn
0-shot Acc.
69.67
65.93
-
20.78
17.49
-
10-shot Acc.
85.62
82.87
85.69
28.63
25.23
28.55
表 3:
关于事件直方图着色方法的消融实验
。 请参见文本了解消融方法的实现细节。
4.2
零样本分类
结果。
表
1
展示了 EventCLIP 的零样本分类精度。 在没有任何领域内训练的情况下,我们的方法在拥有 101 个类别的 N-Caltech 上取得了 69.67% 的精度。 这证明了我们的事件到帧转换管道在桥接 RGB 和事件相机领域方面的有效性。 此外,我们的模型在真实的N-Cars数据集上取得了更高的82.28%的准确率,这证明了其泛化能力。 在具有挑战性的N-ImageNet数据集上,由于缺乏事件领域知识,我们的准确率较低,仅为20.78%。
图3
:
N-Caltech、N-Cars和N-ImageNet上的少样本分类准确率
。 所有基线都基于在RGB ImageNet上预训练的ResNet34骨干网络。 对于EST和DiST,我们尝试了使用更大ResNet101和ViT-L骨干网络的其他变体。 我们还报告了使用另一个VLM FLIP
[40]
的EventCLIP。 在所有设置下,我们的方法始终优于最先进的基于事件的分类器。
消融研究。
我们首先研究
表
2
中的事件时间窗口大小
N
。 由于来自N-Cars的事件流通常很稀疏,我们将所有事件转换为一帧,无需消融。 在N-Caltech上,较小的
N
取得了最佳的零样本准确率,但我们选择20,000,因为它在零样本和少样本结果之间取得了更好的平衡。 由于N-ImageNet的相机分辨率更高,我们需要更高的
N
=
70
,
000
才能获得最佳性能。 有关
N
的更多消融实验,请参见附录
D.1
。
表
3
消融了不同事件直方图着色的方法。 我们测试了常用的红蓝颜色映射(称为R-B)来可视化事件,它分别将正负事件计数乘以[255, 0, 0]和[0, 0, 255]。 这导致结果变得更差,因为其转换图像的颜色统计数据与CLIP训练的自然图像不同。 我们还设计了一种可学习的方法,该方法通过用两个向量初始化颜色映射并在训练过程中共同优化它们。 这导致了相似的精度,但由于需要反向传播通过沉重的ViT图像编码器,因此需要10
×
倍的计算量。 总体而言,我们的灰度颜色映射效率很高,并减少了输入到CLIP的域差距。
Model
RN
RN
×
4
RN
×
16
RN
×
64
ViT-B
ViT-L
Size (MB)
244
403
631
1300
335
890
0-shot Acc.
44.34
51.41
60.83
61.92
61.11
69.67
10-shot Acc.
74.21
77.43
79.95
81.23
80.70
85.62
表4:
在N-Caltech上关于CLIP图像编码器的消融实验
。 我们测试了ResNet50 (RN)系列和Vision Transformers (ViT-B/16, ViT-L/14)。 报告了模型大小和精度。
Prompt
0-shot Acc.
10-shot Acc.
A photo of a [CLASS]
66.57
82.18
An event camera photo of [CLASS]
64.73
78.34
An edge map of a [CLASS]
68.70
84.07
A sketch image of a [CLASS]
69.64
85.16
A point cloud image of a [CLASS]
69.67
85.62
[Learnable Tokens]
+ [CLASS]
-
85.37
表5:
在N-Caltech上关于文本提示模板的消融实验
。 “可学习的符元”训练16个上下文向量,如CoOp
[83]
中所述。
基础模型的一个重要特性是其性能随模型大小的可扩展性。 我们使用
表
4
中CLIP的不同图像编码器来研究这种效应。 在ResNet
[24]
和ViT
[10]
系列中,EventCLIP的精度随着模型大小的增加而提高。 值得注意的是,尽管ViT-L的参数要少得多,但其性能明显优于RN50
×
64。 原因可能是转换后的事件帧主要捕捉目标边界,因此偏向于形状信息。 研究表明,CNN通常偏向于纹理
[21]
,而ViT更擅长处理形状信息
[45, 63]
。 此观察结果可作为未来设计基于事件的视觉架构的指导方针。
表
5
比较了用于构建文本提示的模板。 在二维视觉任务中常用的模板“
一张[CLASS]的照片
”实现了66.57%的零样本准确率。 仅仅在“photo”前加“event camera”会导致更差的结果,因为CLIP没有在事件数据上进行训练。 相反,我们明确地描述了事件帧的视觉属性。 由于事件大多由物体边界触发,“边缘图”和“草图图像”都带来了更好的结果。 令人惊讶的是,用“点云图像”来描述事件帧达到了最高的准确率,这与之前将原始事件视为时空点的工作
[67]
一致。 我们还尝试了使用可学习文本符元进行提示微调
[83]
,其性能相似。 但是,它的训练速度慢了5
×
倍,因为它需要通过沉重的文本编码器进行反向传播。
4.3
少样本分类
设置。
我们在N-Caltech和N-ImageNet上实验了1、3、5、10、20个样本。 由于N-Cars只有两类,我们将样本数量乘以10。 我们使用四种变体的适配器测试了EventCLIP:
(i)
PointCLIP的MLP视觉适配器
[79]
,
(ii)
我们提出的Transformer视觉适配器,
(iii)
分类器调优文本适配器
[69]
, 以及
(iv)
结合(ii)和(iii)的联合适配器。 我们还通过用另一个VLM FLIP
[40]
替换CLIP来测试我们的泛化能力。
结果。
我们首先在
图3
3
中将使用联合适配器的EventCLIP与基线进行了比较。 所有使用ResNet34骨干网络的基线在不同数据集上的性能都相似,这与之前的观察结果
[32]
一致。 相比之下,EventCLIP实现了显著更高的少样本准确率。 我们在N-Caltech上20-shot的准确率(85.62%)比在整个N-Caltech上训练的EST(81.7%)高出约4%。 请注意,所有基线都是使用在RGB ImageNet上预训练的骨干网络进行初始化的,而RGB ImageNet是创建N-ImageNet的来源。 尽管如此,EventCLIP在所有样本数量上的准确率始终更高。 总体而言,结果证明CLIP的大规模预训练学习了可泛化的表示,从而能够在有限的训练数据下快速适应新的事件相机领域。
为了进行公平的比较,我们还评估了具有更大骨干网络ResNet101和ViT-L的基线。 在有限的数据上直接微调ViT通常会导致严重的过拟合
[10]
,因此我们采用最先进的数据高效ViT训练策略
[62]
。 如图所示,使用ResNet101的DiST获得了相似的性能,而即使采用先进的训练策略,ViT-L的准确率也低得多。 这表明我们的EventCLIP框架的优越性,因为它可以很好地与更大的模型扩展。
最后,我们将CLIP替换为另一个VLM FLIP
[40]
(称为
EventCLIP (FLIP)
)。 与使用CLIP相比,这种变体实现了略低的性能,因为FLIP在RGB图像数据集上的零样本准确率也低于CLIP。 尽管如此,使用FLIP的EventCLIP仍然优于基线,显示了其与基础VLM的通用性。
图4
:
EventCLIP在N-ImageNet上的特征适配器消融研究
。 Transformer。 代表基于Transformer的视觉适配器。
消融研究。
图
4
比较了EventCLIP在N-ImageNet上与四个特征适配器的性能。 基于Transformer的视觉适配器始终以相当大的优势优于基于MLP的对应方法,这显示了其置换等变属性的重要性。 有趣的是,对文本特征进行适配产生的结果明显优于对图像特征进行适配,这与之前的图像工作
[14, 78]
不同。 这可能是因为与图像相比,事件帧存在更大的领域差距。 最后,同时适配两个分支可以实现最佳性能,且不会出现过拟合问题。 参见附录
D.2
,了解更多关于N-Caltech和N-Cars的消融实验。
4.4
EventCLIP微调
设置。
少样本特征适配能够以较小的计算和时间开销来提高模型精度。 但是,它的性能仍然低于在整个数据集上训练的基于事件的分类器。 为了表明EventCLIP在更多数据可用时也能达到最先进的性能,我们建议联合微调CLIP的图像编码器和文本特征适配器。
基线。
我们将其与并发工作E-CLIP
[81]
进行比较,E-CLIP也使用CLIP,但在训练期间需要
配对的RGB图像
和事件。 E-CLIP是使用完整数据集的当前最先进的方法。 为保证比较的公平性,我们采用与他们相同的 ViT-B/16 主干网络的 CLIP。
结果。
表
6
展示了 EventCLIP 的微调结果。 遵循 E-CLIP 的协议,我们也报告了少样本设置下的准确率。 在 N-Caltech 上,我们在低数据制度下取得了更好的结果。 使用更多数据后,EventCLIP 与 E-CLIP 的性能不相上下。 我们假设这是因为 N-Caltech 的类别极度不平衡,其中一些类别只有 20 个样本。 结果,配对的 RGB 图像为 E-CLIP 提供了大量有用的信息。 N-ImageNet 上每个类别都有大量样本的结果验证了这一点。 无需使用额外数据,EventCLIP 在所有设置下始终优于 E-CLIP,实现了新的最先进性能。
Data per Class
1
2
5
10
20
All
E-CLIP
66.72
75.87
82.35
86.92
90.51
93.89
EventCLIP
75.82
78.86
83.57
87.42
90.41
93.57
(a)
N-Caltech 上的微调结果
Data per Class
1
2
5
10
20
All
E-CLIP
22.22
26.85
28.70
30.56
35.11
51.85
EventCLIP
24.39
27.23
31.12
34.24
38.28
53.20
(b)
N-ImageNet 上的微调结果
表 6:
微调结果
. 我们将 EventCLIP 与 E-CLIP
[81]
进行比较,后者对 CLIP 图像编码器进行微调。 我们报告了少样本设置下的结果,或在数据集中的所有数据上训练的结果。
Data Variation
None
Trajectory
Brightness
Average
Variant ID.
Orig.
1
2
3
4
5
6
7
8
9
All
Event Histogram
47.73
43.73
33.72
37.69
24.56
35.24
20.89
29.68
36.33
34.56
32.93
+ DiST
51.67
48.02
38.18
43.16
27.56
40.02
25.19
34.22
40.63
38.83
37.31
+ Ev-TTA (online)
-
44.94
44.63
43.31
41.48
43.46
26.89
34.71
43.86
43.42
40.86
+ Ev-TTA (offline)
-
48.64
48.01
47.24
44.49
47.06
30.08
38.34
47.37
46.58
44.20
+ EventCLIP (0-shot)
50.03
48.49
43.33
41.57
37.90
40.14
25.72
34.28
44.33
44.65
40.05
+ EventCLIP (20-shot)
51.68
51.06
46.58
43.63
42.59
42.94
27.64
37.18
47.65
46.93
42.91
+ EventCLIP (100-shot)