专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
机器学习研究组订阅  ·  16张H100训26分钟,超越o1-prev ... ·  12 小时前  
爱可可-爱生活  ·  晚安~ #晚安# -20250205221737 ·  昨天  
爱可可-爱生活  ·  《爱可可微博热门分享(2.2)》 ... ·  4 天前  
爱可可-爱生活  ·  晚安~ #晚安# -20250202224649 ·  4 天前  
51好读  ›  专栏  ›  新智元

GPT-4o再暴露「弱智」缺陷,大模型无一幸免!港中文等发布「视觉听觉」基准AV-Odyssey:26个任务直指死角问题

新智元  · 公众号  · AI  · 2024-12-11 11:30

正文



新智元报道

编辑:LRST
【新智元导读】 多模态大模型在听觉上,居然也出现了「9.11>9.8」的现象,音量大小这种简单问题都识别不了!港中文、斯坦福等大学联合发布的AV-Odyssey基准测试,包含26个视听任务,覆盖了7种声音属性,跨越了10个不同领域,确保测试的深度和广度。
在人工智能领域,我们一直以为顶尖的多模态大模型已经无所不能,GPT-4o在ASR(音频转文字)任务上已经达到了97%的正确率,更是凸显了强大的音频理解能力。

然而,最近一项来自香港中文大学、斯坦福大学、伯克利大学和耶鲁大学的研究成果却彻底颠覆了这一认知——GPT-4o、Gemini 1.5 Pro、Reka Core等最先进的多模态大模型居然无法正确分辨明显不同的声音大小!

下面是一个例子:

结果让人难以置信:这些顶尖的AI模型都未能准确判断出音量的差异!对于人类来说,这种问题简直是「傻瓜级」任务,然而这些大模型却纷纷失手,暴露出其在基本听觉能力上的严重缺陷。

这一发现激发了研究团队的思考:为什么如此先进的模型在听觉辨识方面如此薄弱?为了填补这一空白,研究团队首度提出了一个全新的测试工具——DeafTest,它专门用来测试多模态大模型的基础听觉能力。

不仅如此,研究团队还提出了首个全面的多模态大模型视听能力评估基准——AV-Odyssey。这一基准旨在推动未来AI模型在听觉、视觉的理解整合能力上迈向新高度。

论文链接:https://arxiv.org/pdf/2412.02611
项目地址:https://av-odyssey.github.io/

代码地址:https://github.com/AV-Odyssey/AV-Odyssey

DeafTest:多模态大模型的「听力盲点」

为了测试多模态大模型最基础的听觉能力,研究团队首先提出DeafTest,该测试包括四项基础任务:数音频中的声音次数、比较两个音频的响度、比较两个音频的音高、比较两个音频的时长。

这些任务都被设计为对人类来说极其简单的判断题,差异明显,例如:

在响度比较任务中,一个音频的响度在70-100分贝之间,而另一个音频则在30-60分贝之间。

然而,测试结果却令人震惊——这些顶尖的AI模型在大多数任务中的表现,几乎与随机猜测无异,准确率和随机选择的50%差不多,无疑暴露了多模态大模型在音频感知上的巨大短板。

AV-Odyssey Bench:全面评估多模态大模型的视听能力

为了更全面地评估AI在视听能力上的表现,研究团队还推出了一个全新的评估基准——AV-Odyssey。

AV-Odyssey包含26个任务,覆盖了7种声音属性——音色、语调、旋律、空间感知、时序、幻觉、综合感知,并且跨越了10个不同领域,确保测试的深度和广度。

为了确保评估的稳健性和公正性,所有任务均采用四选一的多项选择题形式,每个问题都融合了视觉、听觉等多模态信息,全面考察模型的综合处理能力。

此外,为了避免因输入顺序或格式导致的偏差,所有输入(包括文本、图片/视频和音频片段)都会以交错的方式输入到多模态大模型中。问题的形式如下图所示:

AV-Odyssey中包含了由人类专家全新标注的4555个问题,确保题目没有在其他任何数据集中出现过,任务分布以及统计信息如下面图表所示:

同时,为了进一步控制质量,研究团队利用5个视觉语言模型和4个音频大语言模型,过滤出包含冗余图像或音频片段的问题。

在这个过程中,2.54%的问题同时被所有视觉语言模型或所有音频大语言模型解决,研究团队去除了这些问题。

AV-Odyssey 实验结果


从实验结果中,可以发现:

AV-Odyssey的挑战性:







请到「今天看啥」查看全文