专栏名称: 极市平台

极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台，为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯，行业动态，在线分享信息，线下活动等。网站: http://cvmart.net/

MMSearch：新坑来了！多模态大模型也可以作为搜索引擎了？

极市平台 · 公众号 · 科技创业科技自媒体 · 2024-09-26 22:00

主要观点总结

本文主要介绍了关于多模态大型语言模型(LLMs)在人工智能搜索引擎中的应用研究。文章讨论了如何将多模态LLMs应用到搜索引擎中，特别是在处理包含图像查询和用户查询的多模态性质时的重要性。重点介绍了MMSEARCH-ENGINE框架和其关键设计和数据组成，包括问题重构、网页排序和答案总结三个阶段。同时，文章还介绍了MMSearch测试集的设计和评估标准，以及实验结论。最后，文章还讨论了数据集更新、实验与结论等内容。

关键观点总结

关键观点1: MMSEARCH-ENGINE框架的引入及其重要性

为了赋予任何大型多模态模型（LMMs）多模态搜索能力，研究团队提出了MMSEARCH-ENGINE框架。该框架不仅支持包含图像的查询，还同时输入文本和视觉的网页信息，确保全面理解网页内容。它包括问题重构、网页排序和答案总结三个关键阶段，充分利用了LMMs的多模态信息理解能力。

关键观点2: MMSearch测试集的设计和评估标准

为了评估LMMs在多模态搜索中的性能，研究团队设计了MMSearch测试集。该测试集包含300个精心选择的问题，覆盖14个子领域，分为新闻和知识两大类。其设计目的是全面评估LMM在多模态搜索中的各项能力，从查询生成到结果分析的全过程都被纳入考量。

关键观点3: 实验结论和发现

实验结果显示，高分辨率输入并没有为大部分LMM带来明显的性能增益。LMM在问题重构与网页排序能力上有明显欠缺。闭源与开源LMM模型仍有显著的性能差距。MMSEARCH-Engine在端到端任务中超越了商业AI搜索引擎Perplexity Pro。此外，研究者发现通过扩展测试时计算，可以显著提高模型的端到端任务得分。

正文

↑ 点击蓝字关注极市平台

编辑丨极市平台

极市导读

首篇将多模态llm应用到AI搜索引擎的新工作！ >> 加入极市CV技术交流群，走在计算机视觉的最前沿

论文： https://arxiv.org/pdf/2409.12959

主页： https://mmsearch.github.io

代码： https://github.com/CaraJ7/MMSearch

数据集： https://huggingface.co/datasets/CaraJ/MMSearch

1、背景

随着大型语言模型(LLMs)的出现,人工智能搜索引擎(如SearchGPT)展示了人类与互联网交互的新范式。 然而,当前大多数AI搜索引擎仅限于文本设置,忽视了用户查询的多模态性质和网站信息的文本-图像交错特性。 虽然大型多模态模型(LMMs)最近取得了令人印象深刻的进展,但它们是否能作为AI搜索引擎发挥作用仍未得到充分探索。

为了填补这一研究空白，研究团队提出了MMSEARCH-ENGINE框架和MMSEARCH测试集，并进行了广泛的评估：

MMSEARCH-ENGINE旨在赋予任何LMMs多模态搜索能力。 它不仅支持包含图像的查询，还同时输入文本和视觉的网页信息，确保全面理解网页内容。该框架的工作流程包括问题重构、网页排序和答案总结三个关键步骤，充分利用了LMMs的多模态信息理解能力。
MMSEARCH测试集是首个专门评估LMMs多模态搜索能力的综合性测试集。 它包含300个精心收集的问题，涵盖14个子领域，内容分为新闻和知识两大类。新闻类别聚焦于数据收集时（2024年8月）的最新信息，而知识类别则收集了需要罕见知识才能回答的查询。这种设计确保了测试内容与现有LMMs的训练数据不重叠，从而保证了评估的挑战性和有效性。
研究团队对多个闭源和开源LMMs进行了广泛的实验和评估。结果显示，GPT-4o在各项任务中表现最为出色。 值得注意的是，配备了MMSEARCH-ENGINE的SoTA LMMs在端到端任务中甚至超越了知名的商业产品Perplexity Pro。 然而，我们详尽的错误分析也揭示了当前LMMs在多模态搜索特定任务上的不足，特别是在问题重构和网页排序方面的能力限制了它们正确识别有用网站和提取相关答案的能力。最后，由于多模态搜索本身是一个复杂的任务， 我们进行了一个消融实验，在端到端多模态搜索任务上验证了最近由OpenAI o1提出的发现：相比于增大模型结构，推理时的额外计算有更好的性能。

2、关键设计与数据组成

1. MMSearch-Engine框架

MMSEARCH-ENGINE包含三个关键阶段：问题重构、网页排序和答案总结。

a) 在问题重构阶段，LMM需要理解用户的原始查询（可能包含对图像的引用），并将其转化为适合传统搜索引擎的文本查询。为了增强视觉理解能力，使得LMM能充分捕捉到输入的图片中的关键背景信息和人物，系统还集成了Google Lens的图像搜索结果。

b) 在网页排序阶段，系统从搜索引擎API（如DuckDuckGo）获取前K个相关网站，然后让LMM从中选择最具信息量的网站。为了克服LMM的上下文长度限制，系统只提供每个网站的关键信息，包括标题、摘要和网页顶部的截图。

c) 在答案总结阶段，系统对选定的网站进行全面爬取，获取原始文本内容和完整页面截图。为了提高效率，系统会对截图进行裁剪，并使用文本嵌入模型从原始内容中检索出与查询最相关的部分（最多2K个输入Token）。最后，LMM基于这些信息生成答案摘要。

2. MMSearch测试集

MMSearch测试集提供了一个全面的多模态搜索能力评估基准。测试集涵盖了广泛的新闻话题和专业知识领域，以模拟各种用户搜索场景。

测试集中的数据被分为两个领域：新闻和知识。

新闻领域包含从2024年5月到2024年8月的最新信息，确保与现有LMM的训练数据不重叠，这部分作为基准的动态部分。
知识领域则聚焦于特定领域的罕见知识，超出了现有顶级语言模型（如GPT-4或Claude 3.5 Sonnet）的能力范围，构成基准的静态部分。

我们的测试集总共收集了300个查询，分布在14个子领域中。我们的数据收集过程模拟了实际搜索流程。标注者首先提出问题并提供答案，然后给出重构的问题，这个重构的问题用来提交给搜索引擎的API。标注者对搜索结果进行分类，分为有效、不确定和无效三类，并确保至少有一个有效网站。接着，我们从有效网站中随机选择一个获取完整内容，包括全屏的截图和全部的内容。为了保证问题可以被正确回答，另一名标注者需要验证问题的可回答性，从而确保数据质量。

3. 评估标准

评估任务包括四个部分：问题重构、网页排序、答案总结和端到端任务。前三个任务评估LMM在搜索框架中各个阶段的能力，而端到端任务则模拟真实世界的完整搜索场景，依次执行所有三个阶段。这个基准测试的设计旨在全面评估LMM在多模态搜索中的各项能力，从查询生成到结果分析的整个过程都被纳入考量。通过这种方法，可以深入了解LMM在处理复杂、多样化搜索任务时的表现，为进一步改进和优化多模态搜索技术提供有价值的见解。

4. 数据集更新

为确保评估的公平性和时效性，MMSEARCH的新闻领域问题时间跨度从2024年5月1日到8月31日，确保所有测试数据都超出了现有LMM的知识截止日期。随着新模型的发布，数据集会进行动态更新，以维持评估的有效性。

3、实验与结论

我们在MMSearch benchmark上测评了11个现有的LMM，并且对于开源模型，测试了低分辨率以及高分辨率的输入，如下表所示。其中AnyRes表示使用模型提供的高分辨率技术，而LowRes则表示将图片resize到和模型的vision encoder规定的大小。

基于测评，我们得到了如下的发现与结论：

高分辨率的输入并没有为大部分的LMM带来明显的性能增益。 这一发现与常见的测试集的测试结果是不一致的，说明对于内容的感知并不是当前LMM做不好多模态搜索任务的瓶颈，而是由于在某些其他与搜索相关的能力上有明显的欠缺，比如问题重构与抽取有用的信息。
LMM在问题重构与网页排序能力上有明显的欠缺。 LMM在端到端任务与答案总结任务的性能上有显著的差异，这其实揭示了它们在问题重构和网页排序能力上的普遍不足。根据结果发现，所有模型的摘要任务得分都明显高于端到端任务得分，其中开源模型的差距尤为明显。这种差异主要源于端到端任务对模型前两轮处理能力的依赖。
闭源与开源LMM模型仍有显著的性能差距。 研究表明，闭源LMM在各项指标上普遍优于开源模型。其中，GPT-4o以62.3%的最高总分展现出卓越的零样本多模态搜索能力。虽然Qwen2-VL-72B在开源模型中表现最佳，但仍落后GPT-4o 9.6个百分点。在最具挑战性的端到端任务中，这一差距进一步扩大到11.3%，对于7B级开源LMM，差距甚至达到20.1%。
MMSearch-Engine在端到端任务中超越了商业AI搜索引擎Perplexity Pro。 尽管Perplexity Pro使用了如GPT-4和Claude 3.5 Sonnet等先进的大型语言模型，但在相同模型的配置下，其性能仍然明显落后于MMSEARCH-ENGINE。更为显著的是， MMSEARCH-ENGINE甚至在使用开源的Qwen2-VL-72B模型时也能超越Perplexity Pro。这一发现突显了MMSEARCH-ENGINE作为开源多模态AI搜索引擎方案的潜力。 研究者发现Perplexity表现不佳的原因可能在于其仅使用了基础的图像搜索算法，导致无法准确识别图像中的关键对象并检索相关信息。

最后，利用我们的端到端的多模态搜索的任务，我们进行了初步的扩展测试时的计算和扩大模型规模的比较的研究。实验使用了LLaVA-OneVision-7B模型来测试扩展测试时计算的效果，并与扩展模型规模的LLaVA-OneVision-72B进行对比。研究采用了类似于"best-of-N"的多模态搜索策略，其中N设为25。具体步骤请见原论文。

结果显示，通过扩展测试时计算，LLaVA-OneVision-7B的端到端任务得分从29.6%显著提升至55.2%，超过了LLaVA-OneVision-72B的44.9%和GPT-4V的52.1%。这一发现凸显了扩展测试时计算的巨大潜力，验证了OpenAI o1引入的这一技术的有效性。