专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

GPT-4o再暴露「弱智」缺陷，大模型无一幸免！港中文等发布「视觉听觉」基准AV-Odyssey：26个任务直指死角问题

新智元 · 公众号 · AI · 2024-12-11 11:30

正文

编辑：LRST

在人工智能领域，我们一直以为顶尖的多模态大模型已经无所不能，GPT-4o在ASR（音频转文字）任务上已经达到了97%的正确率，更是凸显了强大的音频理解能力。

然而，最近一项来自香港中文大学、斯坦福大学、伯克利大学和耶鲁大学的研究成果却彻底颠覆了这一认知——GPT-4o、Gemini 1.5 Pro、Reka Core等最先进的多模态大模型居然无法正确分辨明显不同的声音大小！

下面是一个例子：

结果让人难以置信：这些顶尖的AI模型都未能准确判断出音量的差异！对于人类来说，这种问题简直是「傻瓜级」任务，然而这些大模型却纷纷失手，暴露出其在基本听觉能力上的严重缺陷。

这一发现激发了研究团队的思考：为什么如此先进的模型在听觉辨识方面如此薄弱？为了填补这一空白，研究团队首度提出了一个全新的测试工具——DeafTest，它专门用来测试多模态大模型的基础听觉能力。

不仅如此，研究团队还提出了首个全面的多模态大模型视听能力评估基准——AV-Odyssey。这一基准旨在推动未来AI模型在听觉、视觉的理解整合能力上迈向新高度。

论文链接：https://arxiv.org/pdf/2412.02611

项目地址：https://av-odyssey.github.io/

代码地址：https://github.com/AV-Odyssey/AV-Odyssey

DeafTest：多模态大模型的「听力盲点」

为了测试多模态大模型最基础的听觉能力，研究团队首先提出DeafTest，该测试包括四项基础任务：数音频中的声音次数、比较两个音频的响度、比较两个音频的音高、比较两个音频的时长。

这些任务都被设计为对人类来说极其简单的判断题，差异明显，例如：

在响度比较任务中，一个音频的响度在70-100分贝之间，而另一个音频则在30-60分贝之间。

然而，测试结果却令人震惊——这些顶尖的AI模型在大多数任务中的表现，几乎与随机猜测无异，准确率和随机选择的50%差不多，无疑暴露了多模态大模型在音频感知上的巨大短板。

AV-Odyssey Bench：全面评估多模态大模型的视听能力

为了更全面地评估AI在视听能力上的表现，研究团队还推出了一个全新的评估基准——AV-Odyssey。

AV-Odyssey包含26个任务，覆盖了7种声音属性——音色、语调、旋律、空间感知、时序、幻觉、综合感知，并且跨越了10个不同领域，确保测试的深度和广度。

为了确保评估的稳健性和公正性，所有任务均采用四选一的多项选择题形式，每个问题都融合了视觉、听觉等多模态信息，全面考察模型的综合处理能力。

此外，为了避免因输入顺序或格式导致的偏差，所有输入（包括文本、图片/视频和音频片段）都会以交错的方式输入到多模态大模型中。问题的形式如下图所示：

AV-Odyssey中包含了由人类专家全新标注的4555个问题，确保题目没有在其他任何数据集中出现过，任务分布以及统计信息如下面图表所示：

同时，为了进一步控制质量，研究团队利用5个视觉语言模型和4个音频大语言模型，过滤出包含冗余图像或音频片段的问题。

在这个过程中，2.54%的问题同时被所有视觉语言模型或所有音频大语言模型解决，研究团队去除了这些问题。

AV-Odyssey 实验结果

从实验结果中，可以发现：

AV-Odyssey的挑战性：