专栏名称: PaperWeekly

PaperWeekly是一个分享知识和交流学问的学术组织，关注的领域是自然语言处理的各个方向。我们热爱知识，分享知识，希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。

ICML 2024 Spotlight | 将表格数据中的专家知识迁移到图像中

PaperWeekly · 公众号 · · 2024-07-23 12:35

正文

跨越多种数据模态进行知识迁移在机器学习领域受到越来越多的关注。本文解决了利用具有专家知识的、但获取代价高昂的表格数据来增强基于图像的预测任务，以面对在推理阶段表格数据不可用的情况。主要的挑战在于如何准确地将多样化的表格数据映射到图像中，以及如何为数值型和类别型表格属性设计不同策略。

我们提出了基于最优输运的图像通道与表格属性对齐方法 Charms，它在图像通道和表格属性之间建立对齐关系，从而选择与视觉特征相关的表格知识进行迁移。具体而言，Charms 通过跨模态测量相似性分布，有效地区分和迁移相关的表格特征，特别是关注形态学特征，从而增强视觉分类器的能力。通过最大化图像通道和表格特征之间的互信息，数值和类别表格属性中的专家知识能够被提取出来。

实验结果表明，Charms 不仅提高了图像分类器的性能，还通过有效利用表格知识提升了其可解释性。

论文题目：

Tabular Insights, Visual Impacts: Transferring Expertise from Tables to Images

收录会议：

ICML 2024

论文链接：

https://openreview.net/forum?id=v7I5FtL2pV

代码链接：

https://github.com/RyanJJP/CHARMS

引言

当前机器学习应用中的数据形式多种多样，包括图像、文本、视频和音频，提供了丰富多样的信息源。多模态学习旨在融合这些不同模态的信息，在推荐系统、医疗保健和视觉问答等多个领域已证明能显著提高模型的准确性和全面性。

尽管多模态学习潜力巨大，不同模态不仅贡献各异，而且在获取成本上也有显著差异。例如，在医疗领域，获取医学图像需要专业设备，而详细准确的诊断则依赖于专家的医学知识，这通常是更具挑战性且成本更高的工作。一个实用的解决方案是在训练阶段利用多种模态，促进专家知识在不同模态间的迁移，从而提高推理阶段单模态模型的表现。

表格数据，以其行列结构为特征，往往包含重要的专家知识，但在基于图像的机器学习任务中却未得到充分利用。继续以医疗为例，医生的诊断通常记录在表格中，提供了关键的见解，例如在 MRI 图像中的特定注释，这对于准确解读至关重要。由于表格数据的结构化性质与图像等非结构化数据显著不同，现有的跨模态迁移方法并不适用于表格数据。本文重点研究如何利用专家标注的、代价高昂的表格数据来增强基于图像的预测，以面对在推理阶段表格数据不可用的情况。

尽管主要思路是在训练视觉模型时将表格属性作为辅助信息引入，但由于这两种模态之间的异质性，使得使学到的视觉嵌入与表格数据对齐存在诸多挑战。并非所有的表格属性都与对应的图像相关。例如，在宠物领养场景中，表格数据不仅包含宠物的类型，还包括宠物是否接种疫苗等信息。

从表格数据中迁移不相关的信息到图像模型中可能会带来挑战，并阻碍图像模型的学习过程。我们期望通过识别“要迁移的属性子集”，并将选择的表格知识迁移到视觉模型，使其在丰富的专家指导下学习更准确的信息。此外，表格数据包含类别和数值特征，通常需要不同的处理策略。知识迁移方法应能够处理这两种特征，并保持模型的可解释性。

为了克服上述挑战，我们提出了基于最优输运的图像通道与表格属性对齐方法 Charms，它选择性地对齐表格数据属性与可能具有不同语义的图像通道。通过最大化视觉预测与选择的表格属性之间的互信息，Charms 有效地将表格数据中的相关专家知识迁移到图像上。

具体来说，由于表格属性与图像通道之间的维度不一致，直接对齐它们存在困难。为了解决这个问题，我们利用样本间相似性作为中介。随后，我们采用最优输运算法有效对齐这两种模态。我们强化图像通道，确保其捕捉到相关的表格知识。通过将表格数据作为辅助信息，我们最大化图像通道与相应表格属性之间的互信息。

实验结果证明了 Charms 方法的有效性，且可视化实验提供了证据，表明我们的方法成功地将专家知识从表格迁移到图像模型中。结果显示，视觉模型变得更加辨别力强且有效。

总而言之，我们的贡献有三方面：

我们强调了从表格到图像的知识迁移的重要性，因为当推理阶段由于高获取成本缺失表格数据时，这可以带来性能提升和更好的理解。
我们提出了 Charms 方法，将相关的表格知识迁移到图像上。它通过利用最优输运对齐属性和通道，并在迁移过程中将表格数据作为辅助信息。
实验结果表明，Charms 能够有效地重用表格知识来提高视觉分类器的性能。此外，我们的方法还结合了表格引导，对学习到的视觉嵌入空间的进行深入解释。

初步发现

为了解决“哪些知识需要迁移”的问题，我们必须研究表格数据中各种属性对知识迁移的影响。为了衡量表格属性与图像之间的相关性，我们采用互信息作为评估指标。随后，利用对齐结果，我们进行高效的知识迁移。

首先，我们希望探讨不同属性对图像数据的影响。互信息是信息论中用来量化两个随机变量之间相互依赖程度的度量。在本文中，它具体代表表格模态与图像模态之间信息内容的相关性。为了计算互信息，我们采用了 MINE 方法。如果一个图像模型获得了从表格数据迁移来的知识，则该图像模型的表示与仅基于表格或图像模态训练的模型之间的互信息都会很高。

为了评估我们的方法，我们在 MFEAT 数据集上进行了实验，该数据集包含两种类型的表格数据。第一种类型由 76 个傅里叶系数组成，这些系数表示字符形状，在图像中没有直接对应的部分。第二种类型包括 6 个可以与图像中相应部分关联的形态特征。

根据前人的研究，互信息和可预测性之间存在正相关。因此，我们将仅在单一模态上训练的模型视为模态最优模型，其互信息具有最大值。我们采用各种跨模态迁移方法来获取图像模型，并计算相应的图像表示。通过将这与最优模型获得的表示进行比较，我们计算各自的互信息。结果如图所示。

我们的实验表明，现有方法在将表格知识迁移到图像模型时，所得表示与表格数据之间的互信息较低。这表明这些方法在将所有类型的表格知识迁移到图像模态时效果不佳，并且特征选择至关重要。为了验证这一假设，我们使用在不同部分表格数据上训练的两个模型对图像模型进行知识蒸馏。我们发现，表格数据中的形态学特征可以有效促进图像信息，而其他非形态学特征则可以使信息更加全面。

这些结果突显了选择不同表格属性及其与图像模态关系的重要性。同样，图像模型中的不同通道具有不同的语义。通过实验，我们可以观察到图像和表格之间存在异质性，并非所有表格属性在图像中都是显而易见的。此外，我们可以通过关注互信息来促进知识迁移，从而增强这两种模态之间的相关性。基于这些发现，我们提出了一种在模态间迁移知识的方法，该方法考虑了每种模态的具体特征，并迁移专家知识以指导图像模型。

基于最优输运的图像通道与表格属性对齐方法

3.1 图像通道-表格属性对齐

基于前面的发现，不同属性对图像的影响各异，而图像的不同通道具有不同的语义。这一认识促使我们建立这些通道与表格属性之间的对应关系。为了进行对齐，我们需要将表格属性和图像通道向量化。然而，挑战在于建立每个通道和属性之间的关系。因此，定义一种能够捕捉它们对应关系的相似性度量是至关重要的。

为了提取图像不同通道的表示，我们使用残差神经网络 ResNet。ResNet 利用卷积滤波器扫描输入数据并提取局部特征。为了解决图像的不同通道可能具有重复语义和冗余的问题，我们使用 K-Means 聚类将相似的通道分组在一起。这样我们可以获得更少的不同的通道，每个通道捕捉图像数据的语义的不同方面。

其次是提取表格表示。目前，现代深度表格数据方法使用标记化和嵌入技术来构建表格数据的特征表示。我们使用 FT-Transformer 来获得每个表格数据属性的表示。这包括将所有特征（包括类别变量和数值变量）转化为嵌入。

对齐两种模态。

由于两种模态在维度和语义上的不一致，直接建立它们之间的相关性是不现实的。如果两个样本在特定属性和通道上的表示相似，这意味着该表格属性和图像通道的语义也相似。具体来说，对于第个通道和第个属性，考虑总共 N 个样本，我们可以独立计算通道和属性上的样本余弦相似性。和的形状均为。随后，我们通过评估通道相似性与属性相似性的关系构建成本矩阵，其中。

基于成本矩阵，我们通过采用最优输运方法来最小化不同模态样本之间的相似性，从而构建语义图。最优传输是用于测量概率分布之间相似性并找到最佳质量传输方式的数学框架。然后，计算出最优传输矩阵：

其中表示 Frobenius 范数。a 和 b 分别是源分布和目标分布。这里源表示表格属性，目标表示图像通道。它们均为均匀分布。对齐图像和表格数据的分布后，我们得到传输矩阵 T。根据聚类结果，我们可以恢复表格属性与图像原始通道之间的对应关系 T。然后通道和属性对齐，并选择相关特征。

3.2 利用额外信息进行学习

通过使用最优传输（OT），我们成功地通过对齐通道与属性解决了特征选择问题。基于前面的实验结果，我们的下一个目标是最大化两种模态之间的互信息。由于互信息和可预测性呈正相关，我们旨在通过部分通道预测对应的属性来增强两种模态之间的互信息。

具体来说，我们使用传输矩阵T为图像通道分配权重。这使我们能够将相关表格属性的注意力引导到其对应的图像通道上。利用现有图像网络的特征提取器，我们训练一个分类器，将图像通道映射到相应的属性。通过这样做，我们增强了图像网络对表格属性的理解，并将这些知识迁移到图像模态中。这使得训练的模型能够有效处理缺失的表格模态，并在复杂任务中提高其性能。

总结来说，损失函数可以写成以下形式：

这里，是标签预测损失函数。是类别属性的交叉熵损失，而是数值属性的均方误差损失。是对应于第个数值属性的图像通道，而是对应于第个类别属性的图像通道。

在我们的损失函数中，前两个组件对应于两种模态的单独训练。第三个组件旨在将表格属性的知识迁移到图像通道上。表格模型被更新以提高每个表格属性的表示准确性，从而计算出更精确的迁移矩阵，以对齐属性和通道。我们每5个epoch更新一次成本矩阵，这确保了模型学习到越来越准确的通道-属性对应关系，使表格数据能够以越来越精确的方式指导图像数据。

总而言之，我们的方法通过利用样本间的相似性和最优传输方法来解决图像通道和表格属性对齐的挑战。随后，我们旨在通过最大化两种模态之间的互信息，将表格中的知识迁移到图像模型中。我们在计算表示和最终学习过程中，对表格数据中的数值变量和类别变量进行不同的处理。

实验

4.1 基础实验

为了展示 Charms 的优越性，我们在六个数据集上与其他流行方法进行了比较，如表所示。我们的结果表明， Charms 在所有数据集上均取得了最佳性能。相比之下，我们评估的基准方法在直接图像训练的情况下未能显著提升性能，有些基准方法甚至表现出性能下降。这一结果可能归因于这些方法仅依赖表格数据提供粗粒度的指导，而未能充分考虑模态之间的复杂关系和交互，从而导致图像模型学习过程中的困惑和较差的结果。

MFH 方法仅学习教师和学生网络之间的 KL 散度，这可能不足以处理复杂任务，这在 DVM 129 分类任务中的表现不佳已证实了这一点。根据 hager 的说法，在回归任务上的实验是 MMCL 的局限之一。

特别令人惊讶的是，我们的方法在 SUNAttribute 数据集上可以超越表格模态的性能。同样，在 CelebA 和 Pawpularity 数据集上，我们的方法能够提高图像模态的性能，尽管表格数据比图像数据性能更差。这表明即使表格模态很强，我们的方法也可能超越其性能。这些发现表明，我们确实将表格知识成功地转移到了图像中。

总的来说， Charms 通过对齐和选择性知识转移有效地利用了表格知识，显著提高了图像模型的性能，并超越了现有方法。这表明，在推理阶段缺乏表格数据的情况下，表格数据在训练阶段提供的专家知识能够显著增强图像预测能力。

4.2 可视化

为了验证 OT 在匹配属性和通道方面的有效性，我们使用 GradCAM 可视化了 OT 的结果，如表所示。在 CelebA 数据集上，我们的模型能够准确捕捉同一图像的各种属性。在 PetFinder-adoption 数据集上，我们展示了模型识别不同图像中相同属性的能力。

我们的结果明确展示了 OT 在精确对齐图像通道与相应表格属性方面的能力，从而证实了我们方法在将表格知识无缝转移到图像模型中的合理性。这一发现为我们方法的基本原理提供了实质性的支持，并强调了精确对齐不同模态分布以促进有效知识转移的重要性。

4.3 分析

在整个训练过程中，为了观察互信息的变化，我们选择了十个不同阶段的模型，从初始训练阶段到收敛阶段。结果如图所示。我们的研究结果清楚地表明，在 Charms 中，互信息呈现出一致且逐步增加的趋势。这一有力的证据证明了知识转移的有效性，并证实了模型在准确性和可解释性方面的提升。

与 MFH 和 FMR 方法相比，我们观察到了不同的模式。最初，MFH 方法优先考虑重要特征，显示出与表格数据更高的互信息。然而，随着模型越来越强调图像信息，互信息与表格数据的联系逐渐减弱。相反，FMR 方法受益于有利的表格数据初始化，但随着表格模态逐渐被弱化，互信息在表格和图像上的表现都在下降。

总的来说，互信息的可视化在理解知识转移的学习过程中发挥了关键作用。它不仅增强了可解释性，还强调了对齐不同模态和促进知识转移的重要性。

总结

在这项工作中，我们提出了 Charms，一种能够自动将相关的表格知识转移到图像中的新方法。我们的方法在转移过程中利用表格数据作为辅助信息，使表格数据中的专家知识得以传递到图像中。由于表格数据中的所有属性并不都与相应的图像相关，我们采用最优传输方法来对齐属性与图像通道，在转移过程中强化相关的通道。

实验结果表明，Charms 在跨模态转移方面优于之前的方法，我们的方法使得通过表格指导对学习到的视觉嵌入空间进行有见地的解释成为可能。我们希望这项工作能激发未来对现实问题中多模态挑战的研究，特别是关注表格数据和知识转移。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：[email protected]

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧