专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
51好读  ›  专栏  ›  智驾实验室

HSI-Drive 数据集助力 ADS,覆盖四季图像,模型性能增强,聚焦轻量级高效机器学习!

智驾实验室  · 公众号  ·  · 2025-02-28 08:00

正文

ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

加入【 智驾实验室 】交流群, 获取更多内容和资料

作者提出了一个更新的HSI-Drive数据集,旨在利用超光谱成像(HSI)开发自动驾驶系统(ADS)。v2.0版本包括在真实驾驶场景中冬季和秋季录制的视频中的新标注图像。与前一个v1.1版本中包含的春季和夏季图像相结合,新的数据集包含了覆盖四季的752张图像。

在本论文中,作者展示了在v1.1数据集上获得先前发布的结果的改进,并展示了在新v2.0数据集上训练的模型的增强性能。作者还通过尝试更强大的图像分割模型在全面场景理解方面取得了进展。

这些模型包括旨在识别如车辆和路标等基本道路交通安全目标的新的分割类别,以及像行人和自行车等高度脆弱群体。

此外,作者还提供了模型在将HSI视频序列分割到各种环境和条件下的性能和鲁棒性的证据。最后,为了正确评估本文中描述的结果,必须考虑可以合理部署在车辆上的处理平台的限制。

因此,尽管本文的实现细节超出了范围,但作者的研究重点放在开发计算高效的轻量级机器学习模型,最终可以在高吞吐量率下运行。

数据集和一些分割视频的示例可以在 https://ipaccess.ehu.eus/HSI-Drive/ 中找到。

I Introduction

由于小型、快照式光谱相机的出现,使得在移动平台上以视频速率记录光谱图像成为可能,因此现在可以在自动驾驶系统(ADS)和高级驾驶员辅助系统(ADAS)的开发中探索高光谱成像(HSI)处理技术[1,2]。然而,在实际驾驶条件下以视频速率获取和处理光谱数据存在固有的技术约束和工程挑战。户外录制意味着需要处理不断变化的照明和天气条件、快速移动的目标等。处理这些图像中的光谱信息意味着需要处理各种非控制的自然光照和背景、传感器饱和效应、在非常不同距离处存在物体,以及由于传感器技术和有限的空间分辨率导致的严重的光谱混合。为了在智能视觉应用中解决这些问题,光谱数据需要进行预处理,并补充相关空间信息。

深度学习模型,特别是全卷积网络(FCNs),在捕捉各种大小和形状物体的空间特征方面表现出色,并已广泛应用于高光谱图像分割[3, 4, 5, 6]。在数据变化大的数据集上训练和测试高光谱图像处理(HSI)机器学习系统需要大量数据。不幸的是,专门用于训练和测试ADS(汽车自动驾驶系统)的HSI处理ML系统的数据集只有为数不多的几个。

特别是,HSI-Drive [10]是一个结构化的HSI数据集,正在用于研究用于部署在汽车上的ADAS(自动驾驶辅助系统)的高光谱图像分割系统。在本论文中,作者提出了HSI-Drive数据库(v2.0)的扩展版本,该版本包含比前一个v1.1版本超过两倍的数据。作者展示了在更广泛的环境中获取更多数据的可用性如何使开发更准确和鲁棒的高光谱图像分割模型成为可能,同时也扩大了HSI处理系统的功能,使其能够对更全面的环境进行理解。

II HSI-Drive v2.0

v2.0版本的HSI-Drive数据集[10]于2022年12月发布,包含752张手工 Token 的图像,来源于秋季(201张图像)、冬季(206张图像)、春季(166张图像)和夏季(155张图像)。与前一个v1.1数据集相比,v2.0在总图像数量上增加了超过272%,数据多样性得到了显著提高。该数据集包含近4400万 Token 像素,分为10个类别,如表1所示。尽管 Token 的主要目的是有益于光谱分类,但为了扩大应用范围,还定义了具有意义的类别,因此大多数类别包含不同材料。因此,每个类别表现出非常不同的光谱变化,这挑战了不同类别间的可分性。例如,虽然道路类别只包括沥青路面,但行人类别包括过路行人、骑行者、摩托车手和动物。另一方面,根据年份、天气条件、白天和道路类型仔细构建数据集,提供了两个潜在的研究途径:开发不受照明和环境条件多样性影响的通用和稳健分类系统,并选择特定子集的数据集来研究与特定驾驶和环境情况紧密相关的现象。

数据集中的图像是通过配备Imec 25-band VIS-NIR (535nm-975nm) mosaic spectral filter的Photonfocus相机拍摄的,该相机安装在CMOSIS CMV200图像晶圆传感器上 [2]。数据集中的原始图像具有1088 x 2048像素的空间分辨率,每个像素的尺寸为5μm x 5μm。然而,光谱带是从由5x5像素窗口Fabri-Perot滤波器形成的拼图提取的,导致输出立方体的分辨率降低到216 x 409 x 25大小。这些图像以12位数字分辨率记录,导致用于使用的记录设置的估计信噪比(SNR)在23.43dB和27.29dB之间。

获取移动车辆在变化照明条件下拍摄的照片面临多个挑战。首先,为了避免运动模糊,必须设置适当的曝光时间限制。这一限制反过来又挑战在低照度条件下拍摄图像。调整传感器的增益可以部分补偿光线不足,但也会放大图像数据中的噪声。

摄像机光学系统的f值(光圈)也可以调整以增加光接收,但这会影响景深和光束入射角,同时产生传感器Fabry-Perot滤波器的响应变化。其次,在阳光条件下,有显著的照明和阴影表面之间的光对比,设置曝光时间变得至关重要,以最小化或防止由于传感器有限动态范围导致的像素饱和。最后,增加不同相机配置的数量会导致图像预处理流程更加繁重和耗时,以保留图像光谱信息的连贯性,同时可能影响ADS/ADAS的实时操作要求。

III Experimental setup

Segmentation experiments

在本节中,作者针对基于HSI的语义分割进行了四项实验,使用了HSI-Drive 2.0数据。早期研究中已经进行了两项实验(3类和5类),并利用新数据更新和改进了FCN模型。这两项新实验涉及6类分割,并在5类实验基础上分别包括了Painted Metal和Pedestrian两个类别。这些添加的目的是为了增强系统感知到的环境的整体理解,从而有助于提高场景理解能力。如以下所述,所获得的实验结果表明,结合新训练数据可以增强所开发分割系统的分类能力、性能和鲁棒性。

实验1旨在对场景中的道路(沥青路)和道路 Token 进行简单的分割。这种设置对于车道保持和轨迹规划系统特别有用。在实验2中,通过包括天空和植被类别,将背景信息进行了补充。这一扩展使得能够识别出潜在的障碍物,如车辆、自行车、行人等,可能需要采取相应的行动。此外,分割揭示了道路两侧和上方存在路标、交通信号灯和信息面板。

新设计的实验3中融入了金属表面划分的概念。这一类别特别关注车辆和交通标志的存在,这有助于改善信号识别、紧急刹车、碰撞警告和自适应巡航控制系统的系统。实验4的目标是涵盖行人、骑自行车的人和摩托车手的划分,他们的有效识别是实现ADS中保护他们的前提。

Data partition and preprocessing

752张图像被分为5个子集,用于5折交叉验证训练方案。分区是基于一个比例标准进行的,该标准考虑了图像在数据集结构中的分布,即白天、气候、季节和道路类型。为了防止局部过拟合并提高模型的泛化性能,在训练过程中使用了验证子集进行早期停止。具体来说,使用了3个子集进行训练(60%),1个子集进行验证(20%),1个子集进行测试(20%)。为了减轻随机权重初始化对模型性能的影响,每次训练都重复了3次。

关于原始图像预处理阶段,作者进行了图像裁剪、通过暗平和扁图像进行反射校正,并通过空间双线性插值进行部分去混(见[12]以获取更多信息)。由于在训练包含卷积空间过滤器的模型时,空间过滤并未产生任何改进,因此作者删除了先前实验中包含的中值滤波步骤。最后,为了增强图像对光照条件的鲁棒性(去阴影),预处理流程的最后一步进行了每个像素值的归一化(即将每个像素的值除以其光谱特征的总和),这类似于[13]中的描述,将[14]中的工作扩展到了超光谱领域。

Model training and optimization

在本研究中,作者继续探索编码器-解码器 FCN 模型,以有效结合光谱和空间特征进行 HSI 的语义分割。与 [12] 中报告的小型 FCN 模型相比,作者探索了更深层的编码器结构,充分利用了新的数据,并在单次通过整个图像的情况下对图像进行分割。在更大的图像上进行训练意味着使用更深层的网络有效地提取不同尺度下的空间特征。

这些模型在配备24GB内存的NVIDIA GFORCE RTX-3090上进行训练。在训练过程中,使用了23张图像的批量大小,而验证时使用了49张图像的批量大小。通过使用Adam优化器,初始学习率为0.001,梯度衰减因子为0.9,平方梯度衰减因子为0.999,200个周期以及每个周期的数据Shuffle,得到了最佳拟合效果。目标函数是逆频率加权交叉熵损失,以确保少数类获得更高的权重。

进行了网格搜索超参数优化研究,以寻找模型复杂性和分类性能之间的最佳权衡。探索的模型超参数包括编码器深度(2,3,4和5),输入图像大小(全图像 versus 图像拼接),输入卷积层中的滤波器数量(8,16和32),卷积核的大小(3和5),以及丢弃层的位置(每个编码器块后或者只在每个和最后一个块后)和丢弃率(0,0.2,0.5)。在训练过程中,采用了正则化技术对卷积滤波器,并尝试了三种不同的学习率(0.01,0.001,0.0001)。训练结果得到的最佳模型,是修改了文献[12]图6所示的架构,包括第一个卷积块中32个滤波器,编码器深度为5层,以及3x3卷积核。由于池化层中的步长值为2,限制了输入图像大小为2的指数乘积,因此最大兼容尺寸为192x384,所以在训练过程中,每个216x409图像被分成四个192x384的拼接块。在测试时,可以根据需要将块合并以恢复原始大小。

该模型包含总共31.10亿参数,并需要每推理一次34.87亿浮点运算(GFLOPS)。为了满足ADAS/ADS系统的严格延迟和内存占用实现约束,作者通过分析每个层的计算复杂性和评估模型的准确性,应用了一种基于迭代剪枝算法的简化方法。经过这次优化过程,计算负载降低到8.49 GFLOPS,参数数量减少到仅320K,且在执行8位整数量化后,对模型的准确性没有明显影响。本文将详细描述实现这一显著模型压缩的流程,并计划在近期发表。

IV Results

表2至VI展示了每个实验中完整216x409图像的分割指标(召回率、精确率和IoU)。全局指标考虑了数据集中每个类的频率,而加权指标考虑了数据集中每个类的反频率,优先考虑少数类。计算指标所使用的公式可以在[11]中找到。

Segmentation results







请到「今天看啥」查看全文


推荐文章
每天学点做饭技巧  ·  姐姐不孕,小姨子竟沦为姐夫产子工具……
8 年前
利维坦  ·  那些“不可译”的微妙情绪表达
7 年前