专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

目录

相关文章推荐

国家外汇管理局 · 习近平对四川宜宾市筠连县山体滑坡作出重要指示 · 昨天

手游那点事 · 全球手游收入Top20：《王者荣耀》空降第一 ... · 3 天前

手游那点事 · 又是腾讯？一款收入超10亿美金的二游出现了 · 3 天前

国家外汇管理局 · 习近平和彭丽媛为出席哈尔滨第九届亚洲冬季运动 ... · 2 天前

国家外汇管理局 · 国家外汇管理局公布2025年主要统计数据发布时间表 · 3 天前

51好读 › 专栏 › 深度学习自然语言处理

AI回答，不止于文字！阿里OmniSearch与传统的一场检索较量

深度学习自然语言处理 · 公众号 · · 2024-11-11 22:55

正文

今天给大家分享一篇阿里的文章，目前还在ICLR2025投稿中，真的很不错！

这篇论文提出了一种新的自适应规划代理OmniSearch，用于多模态检索增强生成（mRAG），并通过构建Dyn-VQA数据集展示了其在处理动态问题上的有效性。

论文: Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-Adaptive Planning Agent
链接: https://arxiv.org/pdf/2411.02937

研究背景

研究问题：这篇文章要解决的问题是如何有效地进行多模态检索增强生成（mRAG），以缓解多模态大型语言模型（MLLMs）中的“幻觉”问题。现有的启发式mRAG方法通常预定义了固定的检索过程，导致两个主要问题：非自适应检索查询和过载检索查询。
研究难点：该问题的研究难点包括：现有知识寻求视觉问答（VQA）数据集无法充分反映启发式mRAG在获取复杂知识时的刚性问题；动态问题的复杂性使得现有方法难以提供足够且精确的相关知识。
相关工作：该问题的研究相关工作有：Zhao等人（2024）提出的mRAG方法，Gao等人（2023）的研究，以及Bai等人（2024）的工作。这些方法虽然在某些VQA数据集上表现出色，但在处理动态问题时存在不足。

研究方法

这篇论文提出了自我自适应规划代理OmniSearch，用于解决多模态检索增强生成中的刚性问题。具体来说，

数据集构建：首先，构建了Dyn-VQA数据集，包含1452个动态问题，这些问题的答案会快速变化，需要多模态知识和多跳推理。
OmniSearch框架：OmniSearch的核心思想是模仿人类在解决问题时的行为，将复杂的多元模态问题动态分解为带有检索动作的子问题链。具体包括三个模块：

规划代理：负责制定子问题和后续检索动作。每个计划动作包括四个关键部分：自思、子问题、检索API 和API查询。
检索器：执行实际的检索操作，包括网页搜索、带文本的图像搜索和带图像的图像搜索。
子问题求解器：根据检索内容总结并尝试回答子问题，然后将反馈提供给规划代理。

多模态检索增强生成：OmniSearch可以与任意MLLM配合使用，增强其解决复杂动态问题的能力。OmniSearch基于闭源的GPT-4V和开源的Qwen-VL-Chat分别开发了两个版本。

实验设计

数据收集：Dyn-VQA数据集通过专业AI研究人员手动标注，包含约1.5K个问题，覆盖9个领域，涵盖三种需要复杂动态检索的问题类型：答案快速变化的问题、需要多模态知识的问题和多跳问题。
实验设置：选择了几种先进的MLLMs作为骨干模型，包括Qwen-VL-7B-Chat、GPT-4V和Qwen-VL-Max。评估指标为自动化指标F1-Recall，计算模型生成响应与真实答案之间的公共令牌比率。
参数配置：使用LoRA进行参数高效微调，学习率为1e-4，权重衰减为0.1，训练批次大小为4，梯度累积步长为8，最大序列长度为8192。

结果与分析

主要结果：OmniSearch（GPT-4V）显著优于其他模型，包括最先进的MLLMs和商业生成搜索引擎。Qwen-VL-Chat基础的OmniSearch甚至超过了较大的GPT-4V配备的两步启发式mRAG。
不同领域的性能比较：在大多数领域中，OmniSearch的性能随着领域复杂性的增加而下降。例如，在交通领域，OmniSearch的表现不如基于GPT-4V的方法，主要是由于交通领域的长尾属性。

请到「今天看啥」查看全文

推荐文章

国家外汇管理局 · 习近平对四川宜宾市筠连县山体滑坡作出重要指示

昨天

手游那点事 · 全球手游收入Top20：《王者荣耀》空降第一吸金2亿美元，《原神》重返前十

3 天前

手游那点事 · 又是腾讯？一款收入超10亿美金的二游出现了

3 天前

国家外汇管理局 · 习近平和彭丽媛为出席哈尔滨第九届亚洲冬季运动会开幕式的国际贵宾举行欢迎宴会

2 天前

国家外汇管理局 · 国家外汇管理局公布2025年主要统计数据发布时间表

3 天前

百姓关注 · 提供线索的“好心人”反而被警方拘留，这起拐卖案的背后，竟然另有隐情…

8 年前

笑的合不拢嘴 · 有这样的老婆,谁还找小三

7 年前

金错刀 · AWE抢先看：美的跨多界大牌联动，全球科技美学浪潮来袭

7 年前

宁波科技RSS · 余姚市开展2017年全国科普日活动启动仪式暨现场科普活动

7 年前

OKEX · OKEx开放QTUM、HSR、NEO、GAS、ZEC、DASH提现的公告

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!