文 | 王启隆
出品丨AI 科技大本营(ID:rgznai100)
端侧 AI 这个概念已经火了一段时间。从最早微软提出了“小模型”(SLM)开始,几个法国人创立了一家叫 Mistral AI 的公司,带头把大语言模型弄的越来越小。后面谷歌苹果两家大厂响应了号召,分别推出了 Gemini Nano 和 Apple Intelligence,代表安卓与 iOS 两大阵营给出了一道范式。
但直到现在,端侧 AI 依然还是个很新颖的东西,除了开发者以外,很少有人会尝试在自己的小笔记本电脑上跑 AI 模型,更不要说手机了。大家对这种形式的 AI 该占多少内存,其实也没什么头绪:是像《原神》这样的手机跑分指标游戏一样,占用 30-40 GB,让手机不停运转发烫?还是说,无缝集成到手机的 OS 里面,让用户对 AI 几乎没有感知?
前者对于一个每天都要 24 小时运行的应用来说,过于苛刻;而后者,你又会担心这样的 AI 性能是不是不够用,到最后发现还不如切成网页版的 ChatGPT 好使。手机上的人工智能,究竟是该像电子游戏一样高负载,还是像系统软件一样低耗能,这是个问题。
在国内,
面壁智能
一直专注于这个问题的终极答案。这家
清华系大模型公司,
今年因为
被斯坦福的 AI 团队抄袭
而爆火,而他们当时被抄的,事实上就是一款端侧上的多模态模型。
9 月 5 日,面壁智能发布了旗舰级端侧模型
MiniCPM 3.0
,首次将超越 GPT-3.5 的水平 —— 也就是 2022 年 ChatGPT 刚问世时展现的性能,带到了手机上面。模型参数 40 亿,仅仅只有传闻中闭源 GPT 参数的百分之一有余。在量化之后,它甚至在手机上只占 2GB,是现在很多手机游戏的十分之一有余。
值得一提的是,这个系列继续保持着优良传统:
开源
。
MiniCPM 3.0 开源地址:
GitHub:
https://github.com/OpenBMB/MiniCPM
HuggingFace:
https://huggingface.co/openbmb/MiniCPM3-4B
往期报道链接:
千元机也能本地跑起大模型?面壁智能开源 MiniCPM 终端旗舰大模型
面壁 MiniCPM 小钢炮瞄准多模态 Agent:幻觉水平超越 GPT-4V,中文 OCR 能力创新高
前文已经提到,MiniCPM 3.0 一共仅使用了 4B(40 亿)参数,超越了 GPT-3.5 的性能。这一突破性进展其实
得益于面壁智能对于大模型技术底层的深入探索和工程化迭代,这一过程在面壁内部称为“大模型科学化”
,他们将“
提升知识密度
”视为高效大模型的核心原则,并发挥了这家公司独到的取名天赋,发明了一个“
面壁定律
”。
总而言之,MiniCPM 3.0 在自然语言理解、知识处理、代码生成和数学运算等多个方面展现出优秀能力,在多项基准测试中超越了 Qwen2-7B、Phi-3.5、GLM4-9B 和 LLaMa3-8B 几款知名模型。
在实
际使用 AI 模型的时候,我们经常会头疼文本输入长度不够的问题。而到了离线的端侧模型上,看着小小的手机,更容易对它的性能发愁。
MiniCPM 3.0 的解决方案是引入了
LLM x MapReduce
长文本分帧处理技术
,实现了理
论上“无限”的上下文长度。通俗点说,就是
将超长的文本内容分割成多个可管理的片段,然后并行处理这些片段,提取关键信息,最后汇总结果。
在 InfiniteBench 评测中,
MiniCPM 3.0 实际的长文本能力
超越了 GPT-4 和 KimiChat 等标杆模型。特别值得注意的是,随着文本长度增加,MiniCPM 3.0 展现出更稳定的性能,这对于处理长篇文档、学术论文等场景具有重要意义。
智能体应用是端侧 AI 必争之地,其中一项至关重要的技术是函数调用
(
Function Calling
),它能够将用户模糊化的输入语义转换为机器可以精确理解执行的结构化指令,并让大模型连接外部工具和系统,最终实现我们在苹果开发者大会上看到的那套经典应用方式:
通过语音在手机上调用日历、天气、邮件、浏览器等 APP 或相册、文件等本地数据库。
MiniCPM 3.0 的
函数调用
能力接近 GPT-4o 级别
,在 Berkeley Function-Calling Leaderboard 上的表现优于多款主流模型。
当然,最近每家 AI 厂商都必须宣传的
检索增强生成
(RAG)技术也塞进来了。RAG 是目前业界解决“幻觉”问题的主流方案,而面壁智能这次发布了 MiniCPM-Embedding 检索模型、MiniCPM-Reranker 重排序模型和针对 RAG 场景优化的 LoRA 插件。
在 MTEB 评测中,其检索模型在中文任务上排名第一,英文任务排名第十三。
说到此处,你可能会有各种疑惑:要开发,我为什么不选云端?满大街都有 4G/5G 网络,为什么还要用终端模型?一个性能介于 GPT-3.5 和 GPT-4o 的端侧模型,对于广大的开发者群体究竟有哪些用途?这些问题 —— 我们同样也有。因此,CSDN 从开发者的视角向
面壁智能 CTO 曾国洋
提出了几道问题,后文还有对
面壁智能联合创始人 & CEO 李大海
的采访,请不要划走。
CSDN:从开发者的视角出发,我们主要好奇的是端侧 AI 开发相关的问题。目前,各家公司都推出了他们的端侧模型,但对于开发者而言,这仍然是一个较新的领域。请问 MiniCPM 3.0 是否提供了专门的 SDK 或 API 供开发者集成到他们的应用程序中?此外,针对这种新兴的端侧 AI 开发,你们计划如何帮助开发者快速上手?
曾国洋:
对于 MiniCPM 3.0 而言,我们已经适配了大多数常见的开源推理框架。许多开发者基于这些框架执行具体的下游任务和部署。在这方面,我们拥有较为完善的生态系统支持。对于将模型部署在如手机等边缘设备上,我们也在持续跟进相关开源推理框架,并有专门团队负责此项工作。
CSDN:相较于其他类似端侧模型,在开发过程中具有哪些独特的优势或面临的挑战?
曾国洋:
MiniCPM 3.0 是一款强大的文本基座模型,其性能显著超越同等规模的模型。对于开发者而言,在微调和训练过程中所需的资源更少。此外,MiniCPM 3.0 的功能非常全面,涵盖了之前提到的函数调用、代码解释以及外挂 RAG 的解决方案。我们还提供了通过 MapReducer 处理更长输入序列的方法。
CSDN:面壁一直在宣传“野外离线使用大模型”的应用场景,所以我很好奇端侧模型在离线与在线环境中是否存在差异?考虑到离线环境无需与外部环境实时交互,是否会更加高效?
曾国洋:
在端侧模型的应用中,无论是离线还是在线,甚至是隐私敏感场景,都需要强大端侧模型的支持。云端功能在这种情况下可能不太适用。
端侧模型的一大优势在于交互性。任何云端解决方案都需要通过网络访问,而在端侧模型中,若要实现具身智能这种主动交互的方案,模型需要持续感知环境并作出决策。如果这些任务由云端完成,则需要频繁的网络通信,这不仅增加了技术实现的复杂性,还会带来更高的成本压力。因此,对于需要持续交互的任务,端侧模型是更优的选择。
CSDN:我曾经还看到有人离线部署大模型,构建了一个可以上传本地知识库进行 RAG 问答的 Agent 应用。随着端侧 AI 的普及,这种应用的需求应该会不少。
曾国洋:
确实存在此类需求,因此在 MiniCPM 3.0 中,我们加入了函数调用和代码解释的功能,这些功能与 Agent 相关,受到较多关注。
如果你想进一步了解面壁智能和曾国洋,欢迎点击阅读:
创造全新的应用场景
作为端侧模型,MiniCPM 3.0 在保持高性能的同时,也注重了实际应用的便利性。前文已经提到,量化后的模型仅占用 2.2GB 内存,比我手机里的 QQ 微信都要小多了。这使得模型在弱网络环境下仍能保持低延迟运行,同时也更好地保护了用户数据隐私。
面对更遥远的未来,我们从技术以外的角度对
面壁智能联合创始人 & CEO 李大海
也进行了访谈。他阐述了面壁智能在竞争激烈的 AI 市场中的战略定位,解释了公司如何与终端设备制造商合作,以及端侧 AI 可能带来的新应用模式。
CSDN:这两年,各大模型厂商都选择了发布自己的 App,而面壁一直在坚持做开源端侧模型。
你们如何定位自己
在当前竞争激烈的 AI 市场中的位置?你们
目前对于目标客户群体的规划定位是怎样的?