0. 论文信息
标题:On-Device Language Models: A Comprehensive Review
作者:On-Device Language Models: A Comprehensive Review
机构:Meta、Nexa AI、San Francisco State University、University of North Texas
原文链接:https://arxiv.org/abs/2409.00088
代码链接:https://github.com/NexaAI/Awesome-LLMs-on-device
运行LLM:https://www.nexaai.com/models
1. 摘要
大型语言模型(LLM)的出现彻底改变了自然语言处理应用,在边缘设备上运行LLM变得越来越有吸引力,原因包括减少延迟、数据本地化和个性化用户体验。这篇全面的综述研究了在资源受限的设备上部署计算昂贵的LLM的挑战,并探索了跨多个领域的创新解决方案。本文研究了设备上语言模型的发展,其有效的体系结构,包括参数共享和模块化设计,以及最新的压缩技术,如量化、剪枝和知识提取。分析了硬件加速策略和协作边缘云部署方法,强调了性能和资源利用率之间的复杂平衡。来自主要移动制造商的设备上语言模型的案例研究展示了真实世界的应用和潜在的好处。该综述还涉及了适应性学习、多模态能力和个性化等关键方面。通过确定关键的研究方向和开放的挑战,本文为设备上语言模型的未来发展提供了一个路线图,强调需要跨学科的努力,以实现无处不在的智能计算的全部潜力,同时确保负责任和道德的部署。
2. 引言
大型语言模型(LLMs)的出现极大地推动了自然语言处理(NLP)应用领域的变革。通过利用Transformer架构,如OpenAI的GPT系列和Meta的LLaMA系列等LLMs在理解和生成类人文本方面展现了无与伦比的能力,深刻影响了从自动化客户支持到高级内容创作等多个领域。这些模型无缝执行各种NLP任务的能力,使它们成为现代AI驱动应用的核心。
然而,传统上主要将LLMs部署在云服务器上,这种做法存在多个挑战,特别是在延迟、安全性和持续互联网连接需求方面。这些问题促使人们越来越关注在边缘设备上部署LLMs——这一转变有望减少响应时间,并在智能手机、汽车系统和个人可穿戴设备等用户设备上直接提供个性化的用户体验。这一范式转变不仅符合用户对即时和个性化辅助日益增长的需求,还减轻了云计算带来的带宽和能源成本。
对设备上AI部署日益增长的兴趣反映在迅速扩展的边缘AI市场上。如图1所示,从2022年到2032年,边缘AI市场预计将在各个行业实现大幅增长。市场规模预计将从2022年的152亿美元增加到2032年的1436亿美元,十年内增长近十倍。这一增长跨越多个行业,制造业、汽车业和政府部门的贡献尤为显著。预计的市场扩张凸显了对边缘AI解决方案(包括设备上语言模型)的日益增长的需求,这些需求由跨多个应用领域的更快、更私密和高效的AI能力所驱动。这一市场趋势与向更本地化的AI处理的技术推动相契合,进一步强调了开发高效设备上LLM解决方案的重要性。
尽管具有引人注目的优势,但在边缘设备约束条件下集成计算密集型语言模型仍面临重大挑战。主要障碍包括有限的计算能力、减少的内存容量和能源限制,这些因素共同使得直接采用基于云的LLM架构变得复杂。例如,在智能手机上执行一个最先进的4050亿参数模型将难以实现,除非在模型性能和能效方面做出重大妥协。
本文综述了当前在边缘设备上部署LLMs的策略和进展。我们旨在批判性地分析为适应边缘计算约束而开发的各种技术和架构。这包括详细研究模型压缩技术、节能计算策略以及新型轻量级模型架构的开发。此外,本文还将深入探讨使LLMs在边缘场景中有效使用的部署策略,突出关键行业应用及其带来的好处。
推荐课程:
国内首个面向具身智能方向的理论与实战课程
。
通过本次综述,我们旨在阐明从基于云到设备上语言模型的转变路径和挑战,提供关于这一转变如何重新定义应用格局和AI可访问性的见解。本文的结构如图2所示。我们首先在第2节中探讨基础知识和初步内容,包括设备上LLMs的演变、架构基础和设备上训练技术。第3节深入探讨了设备上语言模型的高效架构,讨论了创新设计原则、模型压缩和协作方法。第4节继续深入研究了模型压缩和优化技术,包括量化、剪枝、知识蒸馏和低秩分解。第5节调查了硬件加速和部署策略,重点介绍了流行的设备上LLM框架和特定于硬件的优化。为了将这些进展置于具体情境中,第6节展示了现有设备上语言模型的实例及其在各个领域中的实际应用。最后,第7节讨论了该领域的未来方向和开放挑战,第8节总结了我们的综述。通过关注LLM能力与边缘计算要求的交集,本文为AI研究领域的持续讨论做出了贡献,提供了在资源受限环境中实现模型性能和计算效率之间微妙平衡的全面视角。
3. LLM模型总结
设备端大型语言模型(LLMs)的演进是一个与技术进步紧密相连的过程。图3提供了自2023年以来设备端语言模型发展的全面时间线,展示了该领域的快速发展。如图所示,边缘端大型语言模型的探索与实验在2023年正式开始。我们见证了几个具有影响力的模型系列的出现,这些模型的参数低于100亿,使得LLMs能够在边缘设备上运行。显著的例子包括:
• Meta的LLaMA系列
• 微软的Phi系列
• 知谱AI的ChatGLM系列
• 阿里巴巴的Qwen系列
• 01.AI的Yi系列;AI Mistral系列
• 上海人工智能实验室的InternLM系列
此外,还有TII发布的Falcon模型和Mosaic ML发布的MPT模型等模型也参与了此类模型的竞争。尽管这些小参数模型的性能不如传统的大参数模型,但它们使得LLMs能够在边缘设备上运行。它们的出现标志着语言模型行业对使用LLMs的边缘设备应用场景的重视。同时,随着混合专家、量化和压缩等技术的应用,小参数模型在保持参数量的同时,性能也在不断进步。
图3还突出了自2023年以来多模态模型的出现,如LLaVa系列、QwenVL、Gemini Nano和Yi VL。这些模型代表了在边缘设备上部署多模态LLMs的有价值的尝试,以适应移动设备上更复杂和不断变化的用户场景。
进入2024年,创新的步伐加快,这从图中最右侧部分密集的新模型集群中可见一斑。这一时期引入了以下模型:
• Nexa AI的Octopus系列
• ModelBest的MiniCPM系列
• 谷歌的Gemma系列
• 苹果的OpenELM和DataComp-LM
• AI2的OLMo
图3清楚地显示,2024年对多模态能力的关注增加,许多新模型都提供了文本和多模态功能,以应对多样化的任务处理场景。从模型的多样性和进展来看,设备端语言模型正在迅速演进和多样化。这一趋势,加上智能软硬件技术的不断成熟,使得这些模型能够集成到智能手机、联网汽车、计算机、机器人等终端设备中,展示了它们日益增长的应用潜力和价值。
4.设备端大型语言模型(LLMs)的架构设计原则与创新
为设备端部署设计语言模型涉及多个架构原则和创新,旨在克服移动和边缘设备常见的资源限制。关键策略包括:1)参数共享,该策略通过在不同模型部分之间重用权重来减少总体参数数量;2)模块化架构,该架构将LLM分解为更小、独立的组件或模块,这些组件或模块可以单独或并行处理;3)紧凑表示,该策略专注于通过量化、权重剪枝等技术减少LLM的内存占用。为了全面比较这些架构,我们考虑了它们的性能、计算效率和内存需求,这些方面在表1中进行了总结。
5. 应用
近年来,人工智能技术的飞速发展以及移动设备硬件的不断升级,使得在边缘设备上部署大型语言模型成为现实。智能手机作为人们日常生活中最常用的设备之一,其上的语言模型尤为引人注目。目前,全球主要的手机厂商已经开发并发布了一系列部署在设备端或采用设备-云端协作策略的先进模型,如表2所示。这些模型不仅标志着移动计算领域的一大飞跃,也为用户带来了一系列传统云端部署无法比拟的优势。
6. 总结 & 未来工作
本次全面综述揭示了设备端语言模型的最新进展。本文的深入分析强调了模型压缩技术、高效架构设计以及软硬件协同优化策略方面的显著进展,这些进展共同促进了复杂语言模型在资源受限的边缘设备上的部署。这些改进的潜在影响广泛,包括提升数据保护能力、减少延迟以及为不同行业和应用提供平等的高级AI能力。
从以云为中心向基于边缘的LLM部署的转变,不仅仅代表了一种技术进步,更标志着人机交互范式的转变。通过将先进的自然语言处理能力直接带到最终用户设备,这一转变开辟了个性化、上下文感知和即时AI体验的新途径。设备端LLM将彻底改变用户交互方式,促进从手机、物联网到医疗健康和自动驾驶系统等领域的更智能、更响应迅速的技术发展。
然而,实现无处不在的设备端LLM面临着重大挑战。在模型性能与边缘设备固有资源限制之间找到最佳平衡点仍是一个关键的研究问题。确保模型在不同操作条件下的鲁棒性,以及开发有效的持续学习机制,都带来了额外的障碍。此外,随着设备端AI边界的扩展,关于能效、可持续性和负责任部署的问题变得日益突出,需要创新的解决方案和仔细的道德考量。
要充分发挥设备端语言模型的潜力,需要协调一致的多学科努力。研究界必须继续推进模型压缩技术和高效架构设计的前沿,同时解决潜在的数据安全和系统可靠性问题。该领域的从业者应探索新颖的软硬件协同设计方法和自适应的边缘-云端协作策略,以优化现实世界的部署。行业利益相关者在开发专用硬件加速器和推广设备端AI部署的开放标准方面发挥着关键作用。
随着该领域研究的不断发展,设备端语言模型正站在即将到来的技术突破的最前沿。越来越高效的模型、更强大的边缘硬件和创新的部署策略的融合,有望解锁人机交互前所未有的可能性。通过应对本综述中的挑战并利用其中的机遇,研究界可以朝着一个未来努力,在这个未来中,复杂的人工智能能力将无缝融入日常生活,增强人类能力的同时尊重个性化和个体化。通往普及型智能计算的旅程已经启动,设备端LLM将在塑造这一激动人心的未来中发挥关键作用。
综上所述,本综述为研究人员和从业者提供了全面资源,深入分析了设备端LLM的当前状态,并阐明了未来研究和发展的关键领域。随着设备端LLM领域的快速发展,研究界必须致力于应对这一变革性技术带来的挑战并把握其机遇。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~