要说当下人工智能的一个大趋势,那必然是多模态。特别是为了应对任务复杂性、数据标注难题等方面的需求,当前我们对
多模态预训练
的研究热情已经空前高涨。
多模态预训练是一种简单高效的方法
,它可以通过同时处理多种类型的数据,全面提高模型的表征、泛化等各项能力,也不需要我们大量标注数据,因此
无论是在学术界还是工业界,都是香饽饽。
最近这方向一些阶段性的结果已经在各大顶会发表了,比如CVPR 2024的ULIP-2框架,无需标注数据即可刷新SOTA;还有ECCV 2024的MMEarth框架,各方面都显著优于其他预训练模型。
如果有同学想发表相关论文冲冲顶会,我这边整理好了
10篇
最新的多模态预训练论文
以供参考,全部都有开源代码,希望能帮大家加快点进度。
扫码添加小享,
回复“
多模态预训练
”
免费获取
全部论文+开源代码
ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding
方法:
论文提出了一个名为ULIP-2的新型三模态预训练框架,该框架利用大规模多模态模型自动生成3D形状的全面语言描述。这种预训练方法只需要3D数据作为输入,从而消除了手动3D注释的需求,因此可以扩展到大型数据集。
创新点:
-
通过使用更强大的图像和文本编码器,以及扩大模型规模,ULIP-2在多模态3D预训练中实现了更广义的学习。这种扩大规模的方法在零样本分类任务中取得了显著的改进,并且在模型的可扩展性和质量方面解决了现有数据集的挑战。
-
ULIP-2使用生成的描述来提升性能,并与之前所用的手动描述进行了比较。实验证明,使用生成的描述在零样本分类任务中取得了显著的改进。
Structural Information Guided Multimodal Pre-training for Vehicle-Centric Perception
方法:
文章讲述的是一种多模态预训练框架,名为VehicleMAE,专为车辆感知任务设计。这个框架结合了车辆的视觉结构信息(如车辆轮廓线条)和语义信息(来自车辆的自然语言描述),以提高模型对车辆外观的理解和重建能力。
创新点:
-
提出了车辆中心预训练框架VehicleMAE,该框架引入了结构轮廓信息和高层语义先验,以实现更准确的掩码标记重建。
-
引入了结构先验来指导给定车辆图像的重建,在四个下游任务上的性能都有所提升,如车辆属性识别的结果提升到了91.27%、94.11%、95.29%、95.82%、95.50%。
扫码添加小享,
回复“
多模态预训练