专栏名称: 学姐带你玩AI

这里有人工智能前沿信息、算法技术交流、机器学习/深度学习经验分享、AI大赛解析、大厂大咖算法面试分享、人工智能论文技巧、AI环境工具库教程等……学姐带你玩转AI！

多模态时空融合全新框架！性能超越一众SOTA

学姐带你玩AI · 公众号 · · 2024-06-07 12:28

正文

多模态融合能够处理和关联来自不同模态的信息，提高决策的准确性。这其中，时空融合通过整合不同时间和空间维度上的数据， 不仅提高了模型的性能，还增强了数据在时间和空间上的表达力 ，让模型能够更深入地理解并解决现实世界中的动态和多维问题。

因此， 多模态时空融合迅速成为了当前的学术热点 ，被广泛应用于医学、自动驾驶等领域。

为帮助同学们深入了解该方向，获得论文灵感，本文介绍 多模态时空融合 9种最新方案 ，可参考创新点和开源代码也整理了，方便各位理解并复现。

扫码添加小享，回复“ 多模态时空 ”

免费获取 全部论文+开源代码

FusionFormer: A Multi-sensory Fusion in Bird's-Eye-View and Temporal Consistent Transformer for 3D Object Detection

方法： 论文提出了一种名为FusionFormer的新型多模态融合transformer框架，通过在融合编码模块中引入可变形注意力和残差结构，实现了对多模态特征的增强适应性和鲁棒性，并且无需将特征转换为鸟瞰图空间，从而避免了信息丢失。

创新点：

通过比较使用BEV和体素表示法的LiDAR特征与LiDAR特征的模型性能，评估了融合点云体素特征的影响。与以BEV形式输入LiDAR特征相比，使用体素输入格式可以提高模型性能。
提出了一种新的融合方法，并与其他融合方法进行了比较。与加法和串联融合方法相比，使用图像BEV特征通过BEVFormer获得的融合方法具有更好的性能。

Graph based Spatial-temporal Fusion for Multi-modal Person Re-identification

方法： 论文提出一种基于图的时空融合模型G-Fusion，利用时空信息和多模态数据融合来提高无监督行人重识别性能。在此基础上，通过随机初始化投影矩阵进行聚合，加快训练过程并探索节点之间的深层联系。

创新点：

提出了一种基于图的时空融合模型，即G-Fusion，用于无监督的人物重识别。该模型通过软性地整合时空信息，减少时空噪声的影响，并显著提高了性能。
在人物重识别领域中，通过融合时空信息，构建了一个图形，用于跨相机人物追踪。通过计算图中节点之间的亲和力，可以更好地识别相同人物，并显著提高模型的性能。
在Market-1501数据集上达到了92.2%的mAP，在MSMT17数据集上达到了80.4%的mAP，显著超越了现有方法。

扫码添加小享，回复“ 多模态时空 ”

免费获取 全部论文+开源代码

Process signature-driven high spatio-temporal resolution alignment of multimodal data

方法： 论文提出了一种基于过程签名的高分辨率多模态数据对齐方法，称为HiRA-Pro。该方法通过过程签名来实现多模态数据在时空分辨率上的高精度对齐。与传统的统计相关和基于时间戳的对齐方法相比，HiRA-Pro能够在亚毫秒的精度下实现对齐。

创新点：

提出了一种名为HiRA-Pro的新算法，用于高分辨率对齐多模态时空数据。
HiRA-Pro利用过程物理学和动力学的特征来推导过程签名，然后将其用作驱动多模态数据对齐的标记。
在智能制造环境中，通过应用HiRA-Pro对多模态数据进行对齐，可以提高机器学习模型的预测性能，实现精确的质量控制。

SpatioTemporal Inference Network for Precipitation Nowcasting With Multimodal Fusion

方法： 论文提出了一种名为STIN的降水预测模型，用于从多模态气象数据中预测降水强度。该模型包括一个STACNN，一个编码器-解码器框架和一个分类模块。STACNN用于捕捉原始多模态气象数据的空间特征，同时利用多模态融合策略在网络的多个阶段融合多模态特征。编码器-解码器框架用于建模时空动态，并生成下一个时间段的降水特征。最后，使用分类器来预测降水强度。

多模态时空融合全新框架！性能超越一众SOTA

正文

FusionFormer: A Multi-sensory Fusion in Bird's-Eye-View and Temporal Consistent Transformer for 3D Object Detection

Graph based Spatial-temporal Fusion for Multi-modal Person Re-identification

Process signature-driven high spatio-temporal resolution alignment of multimodal data

SpatioTemporal Inference Network for Precipitation Nowcasting With Multimodal Fusion

请到「今天看啥」查看全文