专栏名称: AI科技大本营

为AI领域从业者提供人工智能领域热点报道和海量重磅访谈；面向技术人员，提供AI技术领域前沿研究进展和技术成长路线；面向垂直企业，实现行业应用与技术创新的对接。全方位触及人工智能时代，连接AI技术的创造者和使用者。

面壁 MiniCPM 小钢炮瞄准多模态 Agent：幻觉水平超越 GPT-4V，中文 OCR 能力创新高

AI科技大本营 · 公众号 · · 2024-04-12 18:47

正文

作者 | 王启隆

出品 | AI 科技大本营（ID：rgznai100）

北京时间 4 月 11 日，清华系 AI 公司 面壁智能 联合清华 NLP 实验室宣布日前完成新一轮数亿元融资，由春华创投、 华为哈勃 领投， 北京市人工智能产业投资基金 等跟投，知乎作为战略股东持续跟投，光源资本担任独家财务顾问。发布会上还公布了四款“各显神通”的模型，它们分别是：

主打「 多模态 」、在「 中文 OCR 能力 」显著领先的 MiniCPM-V 2.0
号称「 最小的 128K 长文本 」， MiniCPM-2B-128K
引入 MoE 架构 “越级打怪” 的 MiniCPM-MoE-8x2B MoE
参数减半 、性能却保持 87% 的 MiniCPM-1.2B

在很多人苦苦等待 GPT-5 的这段时间里，小模型、多模态和 Agent（智能体）逐渐受到研究者甚至广大开发者的关注。此前，面壁智能在 2 月发布的“小钢炮” MiniCPM 以 1T 的数据超越了法国初创公司训练 8T 数据的 Mistral-7B 模型，贯彻了“ 以小博大 ”四个字。面壁得到了来自开发者社区的热情反馈，发布后多次登顶 GitHub Trending，跻身 HuggingFace 50 万模型 TOP 3（持续一周），GitHub 星标 3.4K，全网下载量 37 万。

面壁出身开源，信仰开源，MiniCPM 的发布也回馈了开源社区。来自 MIT、普林斯顿等研究机构的研究者 基于 MiniCPM 的训练思路 开源了一款名为 JetMoE 的模型，通过仅花费 10 万美元的训练成本，却实现了与耗费数十亿美元训练的 LLaMA-2 模型相当甚至更优的效果。

此外，智源研究院团队推出了新一代检索排序模型——BGE Re-Ranker v2.0，其中 基于 MiniCPM 优化 的版本 BGE Re-Ranker v2-MiniCPM-2B 在中文检索评测基准中取得了最先进的 SOTA （state-of-the-art）性能表现，进一步验证了 MiniCPM 架构的有效性和优越性。

全世界的大模型都要学中国话

这一次全新升级的小钢炮，将炮口瞄准了「 多模态 」。

在图像到文本和文本到图像生成领域，大规模多模态学习这几年取得了显著进展，然而， 这些所谓的成功主要局限于英语环境，其他语言则远远落后 。由于非英语多模态数据资源稀缺（即缺乏大规模高质量的图文对数据），在其他语言中构建具有竞争力的对应模型是一项重大挑战。

面壁端出的第一门炮便是 MiniCPM-V2.0 多模态大模型，尽管模型规模仅为 2.8B 左右，但在实际性能上表现出色，无论是在主流的评测基准上还是针对特定任务的表现，均超过了众多之前的大规模模型，如 Qwen-VL-Chat-10B、CogVLM-Chat-17B 和 Yi-VL-34B。

在避免模型产生幻觉的能力方面，其在 Object HalBench 榜单上评估的幻觉率仅为 14.5% ，与 GPT-4V 的 13.6% 相差无几，这意味着 MiniCPM-V2.0 在降低幻觉性输出方面的表现已与 GPT-4V 持平，且在实例测试中，MiniCPM-V2.0 的 幻觉错误数量少于 GPT-4V 。

在多模态识别与推理能力的核心指标——OCR 光学字符识别方面，MiniCPM-V2.0 模型不仅能准确识别现代图像中的物体和文字，还特别适用于古文字识别，例如识别 清华简中的古战国文字 。通过针对性训练和强化，MiniCPM-V2.0 成功解决了诸如识别清华简中复杂古文字的挑战，并在相关领域中优于同类中文标杆多模态大模型。

以后，考古学家就能靠大模型考古了。

量化评测方面，MiniCPM-V2.0 在 OCR 综合性榜单 CRBench 上刷新了开源模型的最佳表现，其在场景图片文字识别任务 TextVQA 上的表现甚至 超越了全系 13B 量级模型 ，媲美业界顶级模型 Gemini Pro。

针对 OCR 识别的传统难题，MiniCPM-V2.0 通过采用 独家技术 LLaVA-UHD ，实现了对高清大图、任意尺寸和宽高比图像的无损识别。即使是对高度复杂、包含大量局部细节的场景图片，如街景图，也能精准捕获并识别出微小的文字信息，克服了传统模型在处理非标准化图片时的信息损失问题。

此外，MiniCPM-V2.0 在处理长图和不规则图像时，具备卓越的摘要能力和对图像全局及局部信息的理解力，使得长图中的文本信息得以高效提炼和理解。

CSDN 就 MiniCPM 独家的跨语言多模态泛化技术进行了询问，这项技术基于面壁此前开源的中英双语多模态大模型—— VisCPM 。

开源地址： https://github.com/OpenBMB/VisCPM

论文地址 ：https://arxiv.org/abs/2308.12038

这篇论文提出了一种名为 MPM 的有效训练范式，用于训练非英语语言的大规模多模态模型。MPM 的全称是一句很长的话，即： 多语言模型可以作为桥梁实现跨语言的零样本多模态学习 （ M ultilingual language models can P ivot zero-shot M ultimodal learning across languages）。

具体来说，基于一个强大的多语言大模型，仅使用英文图文数据预训练的多模态模型能够在近似零样本的方式下很好地推广到其他语言，并且性能甚至超越那些在母语图文数据上训练的模型。

作为 MBM 方法的实践，面壁基于中英双语大模型 CPM-Bee 研发了面向中文的大规模多模态模型 VisCPM。值得注意的是，尽管 VisCPM 仅在英文图文对上进行预训练， 其在中文环境下的零样本性能仍然超越了那些在本土中文图文对上训练的现有中文多模态模型 。遵循相同的训练流程，他们还进一步扩展了 MPM 技术，基于 LLaMA 开发了一款支持六种语言的多语种多模态对话模型，这六种语言包括英语、德语、法语、西班牙语、意大利语和葡萄牙语。

VisCPM：仅通过英文多模态数据预训练，泛化实现优秀中文多模态能力

参数越来越小，应用场景越来越多？

除了多模态小钢炮，面壁还展示了三个各具特色的模型：

MiniCPM-2B-128K

面壁给它的标签是「 最小的 128K 长文本 」。

这是一款专注于处理长文本的轻量级模型，仅拥有 2B 参数量，在 7B 参数以下的模型中表现出色，尤其在 InfiniteBench 榜单上的平均成绩超越了 Yarn-Mistral-7B-128K、Yi-6B-200K、ChatGLM 3-6B-128K、LWM-Text-128K 等模型。

MiniCPM-MoE-8x2B MoE

MoE（mixture of experts），中文可以叫 混合专家模型 ，因为他很像由多个专家组成的智囊团。想象一下，在模型里有个繁忙的决策中心，每个专家都专精于不同领域的知识和技能，比如有的擅长数学难题，有的精通文学创作，还有的是科学探索的高手……如果说大模型是在机器里塞了个人和我们对话，那 MoE 就是塞了一堆人。

MiniCPM-MoE-8x2B MoE 就引入了这样的 MoE 架构，提升了模型性能，相较于 MiniCPM 的基础版本平均性能提高了 4.5%。在保持较低平均激活参数量（4B）的同时，其性能优于更大参数量的 LLaMA 2-34B 和 Gemma-7B 等模型，并且推理成本仅为 Gemma-7B 的 69.7%，大幅降低了资源消耗。

可惜的是，目前还没法把一堆人塞到手机里面。目前 MiniCPM 的 MoE 版本在端侧运行可能还需较大内存支持，但面壁的研发团队正在努力攻克这一技术难关，目标是使其能在移动设备上高效运行。

MiniCPM-1.2B

面壁 MiniCPM 小钢炮瞄准多模态 Agent：幻觉水平超越 GPT-4V，中文 OCR 能力创新高

正文

请到「今天看啥」查看全文