专栏名称: 量子位

վ'ᴗ' ի 追踪AI行业和技术动态，这里更快一步！关注我们，回复“今天”，更多大新闻等你来发现

DeepSeek后更大的机遇：AI端侧推理创新 | 智在终端

量子位 · 公众号 · AI · 2025-03-11 13:24

正文

明敏鱼羊发自凹非寺
量子位 | 公众号 QbitAI

每年开春的“新机潮”，今年出尽风头的是DeepSeek。

一时之间，几乎所有主流消费终端厂都在短时间内完成DeepSeek的接入。

荣耀、OPPO、魅族、vivo、小米纷纷官宣自家AI助理上线DeepSeek-R1及其满血版；甚至OPPO今年新发的旗舰大折叠Find N5，也强调了对DeepSeek的支持。

另一个被掀起鲶鱼效应的是车圈。

一个月内，吉利、比亚迪、奇瑞、岚图、长城、理想等超过20家车企宣布接入DeepSeek，形成汽车与AI加速融合的一个切面。

热潮之下是技术洪流不断向前涌动——

AI正在进入推理创新时代。

如此趋势认知来自高通。DeepSeek效应从AI领域向外辐射，从算法创新逐渐演变成对每个人生活工作的潜在影响。

辐射普罗大众，消费终端是关键桥梁。

由此，在当下节点，一份对AI端侧趋势的梳理就变得尤为重要。高通最新发布的白皮书 《AI变革正在推动终端推理创新》 ，已梳理出四大趋势：

先进AI小模型已具有卓越性能
模型参数规模正在快速缩小
开发者能够在边缘侧打造更丰富的应用
AI正在成为新的UI

透过这份行业分析，AI推理之于终端将产生哪些影响？也就有更明了了。

AI正在进入推理创新时代

最首要的问题，DeepSeek这条“鲶鱼”究竟改变了什么？

之于行业内， 大模型端侧趋势 早已是暗流涌动。在ChatGPT爆火后，高通就提出了 混合AI 的概念。

它强调，随着生成式AI不断发展，AI处理必须分布在云侧和终端进行，才能实现AI的规模化扩展并发挥其最大潜能。它几乎适用于所有生成式AI应用和终端领域，包括手机、笔记本电脑、XR头显、汽车和物联网。

从当时来看， 节省成本 是推动混合AI架构的主要因素之一。一次AI问答所需的成本是传统搜索的1000倍，混合AI能够通过和终端设备协同算力的方式，降低云端计算的成本。同时兼顾个性化、隐私保护等需求。

这也造成了部分AI体验被阉割的问题。由于当时推理Scaling Law （语言模型中的规模化法则行为）尚未被提出，模型能力与参数规模呈强烈正相关，尽管厂商们也陆续推出小型号模型适应端侧需求，但性能和精度水平仍旧受到限制。

在实际进展上，高通在过去几年先后发布的 第三代骁龙8、骁龙X Elite和骁龙8至尊版 等平台上，开始强化终端芯片对生成式AI能力的支持。手机、PC厂商们在此基础上进一步发力，陆续推出本地支持AI能力的新机，AI端侧应用迎来一波小趋势，不仅手机助手都更加智能化，也衍生出AI一键消除路人、AI语音通话总结等原生AI端侧应用。

可以说，在过去几年，端侧AI已搭建好初步的框架和地基。若有更强劲的东风，这股新趋势便将进一步爆发。

高通技术公司高级副总裁兼技术规划和边缘解决方案业务总经理马德嘉（Durga Malladi）近期的采访，进一步验证了外界的猜测：

我们在去年11月份的时候已经做出了这样的预判，会有越来越多的高质量模型在搭载骁龙平台的终端侧运行，让开发者能够在边缘侧打造更丰富的应用。

果然，在2025年， 推理模型DeepSeek-R1 这股东风到来。它从模型层面为困扰端侧AI已久的成本问题，提供了全新解决思路。

通过使用思维链推理数据和非推理数据微调，并进行蒸馏， DeepSeek-R1实现了将推理能力赋予到小规模稠密模型上 。

这意味着，高质量且小规模的模型并非不可能实现。DeepSeek一声惊雷过后， 这样的模型只可能比人们预想中的还要多、还要实惠 。

由此，高通对当下趋势进行梳理，在白皮书给出四大值得参考的方向。一方面是为了在发展中总结经验，另一方面也是与行业一起探讨前路方向。

其中，第一点被提及的还是快速进化的AI模型。

现如今，不仅模型质量在进一步提高，开发方式其实也在变得更便捷。

经过多年探索，目前AI领域内针对不同模型需求，已经形成了诸多范式。

比如针大规模模型，可以使用MoE （混合专家模型）、SSM （状态空间模型）等架构来降低计算开销，同时保证模型质量；使用思维链和自我验证等，能够大幅提升模型在数学、编码、推理等方面能力；对于小模型，蒸馏技术的普遍应用能够让大模型“教学”小模型，保持准确性的同时迁移知识，进一步降低开发难度，一定程度上避免重复造轮子。

其次，从全行业范围看， 模型参数规模正在快速缩小 。

量化、剪枝、蒸馏等技术下，大模型的性能可以很好迁移到小模型上。

基于通义千问模型和Llama模型的DeepSeek蒸馏版本，在GPQA基准测试中，与GPT-4o、Claude 3.5 Sonnet和GPT-o1 mini等先进模型相比，取得了相似或更高的分数。

此外，让模型更“浓缩精华”也是正在发生的趋势。根据Epoch AI整理的数据，2024年发布的大规模AI模型中，超过75%的模型参数在千亿规模以下。

第三，高 质量模型激增，开发者有了更多选择，边缘侧的AI应用正在渗透到普通用户的日常用机习惯中。

比如文档摘要、AI图像生成和编辑以及实时语言翻译，已经成为如今AI手机上的常见功能。影像方面更是可以利用AI进行计算摄影、物体识别和场景优化。

这些都得益于AI推理在终端侧的广泛普及。

由此更进一步，AI正在成为新的UI。

随着大模型入驻手机、PC，传统的屏幕交互正在被变革、颠覆，个性化多模态AI智能体可以简化人机交互流程，高效地跨越各种应用完成任务。

比如荣耀去年火出圈的“一句话点咖啡”，就是一个例子。

当然还不止于手机、PC、汽车等消费级终端，未来在机器人、无人机以及其他自主设备上，AI也有望实现实时决策，在动态的真实环境中实现精确交互。

综上，随着AI进入推理时代，终端侧的创新与应用落地被进一步激发，AI格局甚至都将就此发生改变。

那么问题来了——

AI推理时代需要什么？

DeepSeek-R1的蒸馏模型，在问世不到两周时间内就被争相接入各种终端，令不少业内人士都惊叹不已。

而在DeepSeek之外，值得关注的是， 大部分接入的终端产品都是“高通芯” 。

关键的一点是，在DeepSeek搅动风云之前，高通就已经进行了前瞻预判： AI计算处理将从云端向边缘侧扩展 。

2023年5月，高通发布了《混合AI是AI的未来》白皮书，其中提到：

AI处理必须分布在云端和终端进行，才能实现 AI的规模化扩展 并发挥其最大潜能。

而决定进程的影响因素包括：终端能力、性能需求、隐私和安全需求，以及商业模式等诸多因素。

简单归纳，核心回到3个问题：

硬件设计是否能满足模型对终端算力的需求？
相比云端模型，终端“小”模型是否足够好，足够多，足够便宜？
打通软硬件的AI Infra （人工智能基础设施，连接算力和应用的AI中间层）是否完备，终端侧的生态系统是否健全？

围绕这3点，再回溯高通这两年以来的技术布局，不难看出，高通在终端AI领域，再次引领了时代之先。

首先，是 高性能、高能效的芯片设计 。

高通长期致力于开发定制CPU、NPU、GPU和低功耗子系统，同时拥有封装技术和热设计的技术专长，构成了其行业领先系统级芯片（SoC）产品的基础。

这些SoC能够直接在终端侧提供高性能、高能效的AI推理。

比如，骁龙8至尊版除了在对AI最为关键的NPU上带来一系列升级，在CPU和GPU上同样做了不少文章，以更加充分地释放SoC的AI能力。

包括引入自研Oryon CPU，应对对时延敏感的AI任务，比如实时翻译、AI助手命令响应等，并负责将AI任务分配到其他核心上。

而骁龙8至尊版的Hexagon NPU，目前已经可以支持70+ Tokens/秒、4K上下文的生成能力；并为应对多模态AI任务增加了额外的内核。

又比如骁龙X系列平台，其专为实现高性能、高能效的生成式AI推理而打造的NPU核心，对定义全新AI PC品类发挥了关键作用。

△ MWC2025高通展区画面

其次，是 覆盖所有关键边缘细分领域的可扩展性 。

不仅是手机、PC，在XR头显和眼镜、智能汽车，以及工业互联网等诸多终端场景中，高通的身影无处不在，并代表着 最先进 的技术水平。

△ MWC2025中高通展区展出搭载骁龙XR平台的终端

而在所有这些场景中，高通始终在更加积极、极致地融入、提升AI能力。