用深度学习的方式融合各种信息

小白学视觉 · 公众号 · · 2025-02-05 18:05

正文

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达作者：Purvanshi Mehta，编译ronghuaiyang

用深度学习的方式融合各种信息

简介

导读

使用深度学习融合各种形式的信息。

我们对世界的体验是多模态的 —— 我们看到物体，听到声音，感觉到质地，闻到气味，尝到味道。模态是指某件事发生或经历的方式，当一个研究问题包含多个模态时，它就具有多模态的特征。为了让人工智能在理解我们周围的世界方面取得进展，它需要能够同时解释这些多模态的信号。

例如，图像通常与标签和文本解释相关联，文本包含图像，以更清楚地表达文章的中心思想。不同的模态具有非常不同的统计特性。

虽然结合不同的模态或信息类型来提高效果从直观上看是一项很有吸引力的任务，但在实践中，如何结合不同的噪声水平和模态之间的冲突是一个挑战。此外，模型对预测结果有不同的定量影响。在实践中最常见的方法是将不同输入的高级嵌入连接起来，然后应用softmax。

多模态深度学习的例子，其中使用不同类型的神经网络提取特征

这种方法的问题是，它将给予所有子网络/模式同等的重要性，这在现实情况中是非常不可能的。

所有的模态对预测都有相同的贡献

我们采用子网络的加权组合，以便每个输入模态可以对输出预测有一个学习贡献(Theta)。

我们的优化问题变成-

推荐文章

科幻世界SFW · 新刊速递 |《科幻世界》：“生物科幻”大拼盘，全形态生命体幻想指南！

3 天前

毒舌电影 · 纵然李安新片失败，也是一场伟大的失败

8 年前

科学解码 · 光盘以30000转/分转动会发生什么神奇现象？

8 年前

李银河 · 时尚女性画家：詹姆斯·迪索

7 年前

每天发现一家店 · 推荐 | 30 组 T 恤搭配，看完别再说自己不会穿了

7 年前

体坛周报 · 【评论】赛季末，我们来谈谈俱乐部管理的硬手段和软文化

7 年前