专栏名称: 大数据文摘
普及数据思维,传播数据文化
目录
相关文章推荐
大数据分析和人工智能  ·  20个很强的DeepSeek提问公式 ·  昨天  
软件定义世界(SDX)  ·  工业大模型的演进及落地方向 ·  2 天前  
数据派THU  ·  AAAI2025|只根据题目和摘要就能预测论 ... ·  2 天前  
大数据分析和人工智能  ·  35岁被优化,经济压力大,看DeepSeek ... ·  5 天前  
大数据分析和人工智能  ·  用DeepSeek帮我接财神 ·  6 天前  
51好读  ›  专栏  ›  大数据文摘

EMNLP 2022 最佳论文揭晓!这脑洞绝了….

大数据文摘  · 公众号  · 大数据  · 2022-12-13 21:07

正文

大数据文摘授权转载自夕小瑶的卖萌屋

文 | 付奶茶
编 | ZenMoore

在人类智能中,抽象是一个很底层很基本的能力,在某种程度上,可以认为是人类智能的源头之一。因为人在对主客观世界进行观察的过程中,抽象出了无数种概念(concept),对这些概念的模块化( modularity )、组合式( compositionality )的理解,很大程度上刺激了人类语言的诞生,从而最终导致了人类智能、人类文明的产生。

举个例子,万年前的“猴子们”观察了大量的物理对象(object)、实体(entity)以及他们之间的关系(relation)等,逐渐在脑子里面形成了“石头”、“家庭”、“在...之间”、“因果”等概念,经过很长一段时间之后,“猴子们”把这些存在脑海里面的概念用“字”和“词”表示了出来,这些蕴含着抽象概念的字和词经过复杂的、有规则的组合,形成了各种各样的语言,而语言能够表达、演绎、推理一切!就这样,人类智能诞生了~
在认知科学上,七巧板就是这个智能过程的一个简单的重现:七巧板的每个板板就是上面说的一个类似“概念”的存在, 这些代表“概念”的板板模块经过组合,形成了多种多样的形状(shape),而人类如何理解这些形状,又如何理解这些板板,在某种程度上,就是某个人抽象能力的衡量。而抽象能力,就是人类进行推理(reasoning)以及泛化(generalization)的底层能力。
今天介绍的这篇文章荣获了EMNLP 2022 Best Long Paper, 巧妙地借鉴了七巧板这个童年游戏,评估了当前多模态模型的抽象理解能力。可以说,至少在人类级别智能的评测上,推进了一步!
论文标题
Abstract Visual Reasoning with Tangram Shapes
论文链接
https://arxiv.org/pdf/2211.16492.pdf

数据集的构建

首先给大家展示一下童年回忆之七巧板:

一套七巧板由 7 个颜色各异的板板组成,可以根据想法自由组合成各种各种的形状。
这篇论文首先收集了 1004 个七巧板图像,又从七巧板的研究文献中找了另外12种将其扩充到了 1016 个,然后在 Amazon Mechanical Turk 平台上雇了 297 个数据标注员,花了两千多美刀让他们标注了这么两个任务:
  1. 七巧板整体形状的预测:这部分数据集叫做 FULL “This shape as whole looks like ___”

  2. 部分预测:形容某个单独的部分是干啥的,因为细节标注比较密,所以把这部分数据集叫做 DENSE "The part you selected looks like___"

作者还从 DENSE 里面挑出来一些标注不那么密的子集,叫做 DENSE10.
在这个数据集当中,包含了类人形状(比如舞者)、动物形状(比如狗狗)还有物体形状(比如房屋)等等。可以从下面两张图中大概了解长什么样儿~

▲“头”用七巧板可以怎么展现

数据集质量衡量

看了这些图,不难发现七巧板这个任务过于抽象,对人工数据集构建来说,这就导致了一个关键的问题:不同标注员之间存在较大的主观差异,“你说这是个鸟头,我却说那是个风中的美女头巾”(参考 Figure 1),这样数据集不就乱套了吗?好在作者给出了衡量这类数据集质量的三种指标:
  1. 形状命名差异(shape naming divergence,SND):用来衡量不同标注员进行不同七巧板图像的形状标注时的总体差异;

  2. 部分命名差异(part naming divergence PND):用来衡量不同标注员进行不同七巧板图像的局部标注时的总体差异,计算方式和 SND 大致相同;

  3. 分块分割一致性(part segmentation agreement,PSA):用来衡量不同标注员划分局部时的总体差异,也就是不同的人可能将不同的板板组合划分成某个部分。作者把这个看作是“使用最大权重匹配的线性和分配问题”,并使用成本矩阵计算(快去复习算法[旺柴])

总之这么衡量下来,数据集质量还是不错滴~ 符合真实分布~ ~

多模态模型有抽象能力吗?

作者把构建的数据集叫做 KILOGRAM ,主要衡量了两类代表性多模态模型的视觉抽象能力:
  • 以 CLIP 为代表的双塔模型:视觉和语言模态采用不同的 encoder;

  • 以 ViLT 为代表的单塔模型:视觉和语言拼接成一长串输入,喂给同一个 encoder.

1. 任务形式化

给定一个文本描述 和对应的 张图像 , 这个任务是从这些图像当中选择和文本描述相匹配的那一张, . 其中,






请到「今天看啥」查看全文


推荐文章
大数据分析和人工智能  ·  20个很强的DeepSeek提问公式
昨天
软件定义世界(SDX)  ·  工业大模型的演进及落地方向
2 天前
大数据分析和人工智能  ·  35岁被优化,经济压力大,看DeepSeek如何应付
5 天前
大数据分析和人工智能  ·  用DeepSeek帮我接财神
6 天前
奔波儿灞与灞波儿奔  ·  长得着急是一种什么体验?
7 年前