专栏名称: DeepTech深科技
“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面:1、基于科学的发现;2、真正的科技创新;3、深科技应用的创新。
目录
相关文章推荐
新浪科技  ·  #经纬中国张颖疑似评价Kimi事件#【经纬中 ... ·  3 天前  
新浪科技  ·  【#国产大飞机C919通航城市达10个#】 ... ·  4 天前  
钛媒体  ·  大模型商业化,营销率先突出重围 ·  5 天前  
51好读  ›  专栏  ›  DeepTech深科技

“密度法则”比Scaling Law更有效?清华刘知远团队提出LLM发展新思路

DeepTech深科技  · 公众号  · 科技媒体  · 2024-12-07 22:14

正文




近期,关于 Scaling Law 能否持续的争论不断,有人认为 Scaling Law 可能将会“撞墙”;也有观点认为,Scaling Law 的潜力远未被充分挖掘,OpenAI CEO Sam Altman 更是以一句直白的“There is no wall”回应质疑,强调扩展模型规模依然是提升性能的有效路径。这场争论引发了人们对 AI 未来发展路径的深入思考。


但除了单纯追求模型规模,AI 的发展或许还有其他度量与优化的空间。近期,来自清华大学与面壁智能刘知远教授所在团队的研究人员提出了一个全新的视角——“能力密度”(Capacity Density),为评估不同规模 LLM 的训练质量提供了新的统一度量框架,为解决当前困境提供了新的思路。


日前,这项研究成果发表在预印本平台 arXiv 上 [1]。

图丨相关论文(来源:arXiv


什么是能力密度?研究团队将其定义为模型的“有效参数量”与实际参数量的比值,是一种衡量 LLM(Large Language Model)训练质量的新指标。团队首先引入了参考模型的概念,通过拟合参考模型在不同参数规模下的性能表现,建立起参数量与性能之间的映射关系。


具体来说,对于一个参数量为 NM 的模型 M,如果其在下游任务上的性能分数为 SM,研究人员会计算出参考模型要达到相同性能所需的参数量 N(SM)。模型 M 的密度就定义为这个“有效参数量”与其实际参数量的比值:ρ(M) = N(SM)/NM。举个例子,如果一个 4B 参数的模型能达到 8B 参数参考模型的性能,那么这个 4B 模型的密度就是 2(8B/4B。这个指标同时反映了模型的效果和效率。


为了准确估计模型性能,研究团队采用了两步估计法。第一步是损失估计,通过一系列不同规模的参考模型来拟合参数量与语言建模损失之间的关系;第二步是性能估计,考虑到涌现能力的存在,研究人员结合开源模型来计算它们的损失和性能,最终建立起完整的映射关系。


研究人员分析了从 2023 年 Llama-1 发布以来的 29 个主流开源基座模型,发现了一个重要规律: LLM 的最大密度随时间呈指数增长,可以用以下公式表示:


ln(ρmax) = At + B


其中 ρmax 是 LLM 在时间 t 时的最大密度。基于 5 个广泛使用的基准测试 (MMLU、BBH、MATH、HumanEval 和 MBPP),研究发现 A≈0.007,这意味着,LLM 的最大密度大约每 3.3 个月翻一番。


(来源:课题组)


换句话说,大约每过 3 个月,我们就能用参数量减半的模型达到当前最先进模型的性能水平。例如,2024 年 2 月 1 日发布的 MiniCPM-1-2.4B,其性能可以与 2023 年 9 月 27 日发布的 Mistral-7B 相媲美。


基于密度法则,研究团队提出了多个重要推论。


首先,密度法则表明,随着密度的指数增长,同等性能的推理成本将显著下降。例如,2022 年 12 月的 GPT-3.5 模型每百万词的推理成本为 20 美元,而 2024 年 8 月的 Gemini-1.5-Flash 模型仅为 0.075 美元,成本降低了 266 倍。


(来源:课题组)


其次,研究还发现,自 ChatGPT 发布以来,模型密度的增长速率显著加快。具体而言,ChatGPT 发布后,密度增长速率增加了 50%。这一现象说明,工业界和学术界对高效模型的关注显著提升,并催生了更多高质量的开源模型,为研究者降低了技术门槛。


(来源:课题组)


再次,密度法则与摩尔定律的结合揭示了模型算法效率与硬件性能共同驱动下的技术进步。研究显示,在摩尔定律的作用下,相同价格芯片的计算能力每 2.1 年翻倍,而密度法则表明模型的有效参数规模每 3.3 个月翻倍。在这双重增长的作用下,未来高密度模型或许能在普通设备(如手机、PC)上实现高效运行,推动 AI 技术的普及化。


(来源:课题组)


此外,团队指出,现有的模型压缩技术(如剪枝和蒸馏)未必能提高模型密度。实验表明,大多数压缩模型的密度低于原始模型,原因可能在于压缩过程中训练不足,导致模型未能达到密度最优。


(来源:课题组)

最后,研究团队指出,密度倍增周期决定了模型存在高性价比有效使用期。例如,2024 年 6 月发布的 Google Gemma-2-9B 模型,其训练成本约 185 万人民币,但仅两个月后,它的性能就被参数量减半的 MiniCPM-3-4B 超越。为了在这短短两个月内回收成本,Gemma-2-9B 需要实现 17 亿次用户访问。


企业在开发和部署 LLM 时,需要快速平衡训练成本与收益,在有限时间内充分利用模型价值。因此,比起盲目追求更大的参数规模,更应该关注模型的密度优化,追求以最小的计算开销实现最佳效果。


(来源:课题组)


未来,密度研究还面临着多个重要方向。首先是评估基准的完善。随着 LLM 能力的不断扩展,现有的评估数据集可能无法全面反映模型的真实能力。其次是多模态模型密度的度量问题,这需要考虑不同模态之间的交互特性。此外,推理密度定律的研究也很重要,这涉及到如何在不同推理计算量下优化模型表现。


或许,LLM 发展将会经历一场由“规模至上”到“密度至上”的范式转变。在关于这项研究的报告中,团队提到,AI 时代的三大核心引擎——电力、算力与智力,其密度都在快速增长:电池能量密度在过去 20 年中增长了 4 倍,其倍增周期约为 10 年;摩尔定律则揭示,芯片的晶体管密度每 18 个月翻倍;而 AI 模型能力密度每 100 天翻倍的速度更是惊人。


在这一趋势下,计算基础设施的分布式特性将进一步催生无数大模型的涌现。随着全球数据中心、边缘计算节点的扩张,加上密度增长带来的效率提升,我们将看到更多专门化、本地化的 AI 模型涌现,实现“AI 无处不在”的愿景。


与此同时,密度的提升也意味着用更少的资源实现更强的能力,这不仅降低了 AI 发展对能源和算力的需求,也为 AI 技术的可持续发展提供了可能。


参考资料:

1.https://arxiv.org/pdf/2412.04315v1

2.https://www.theinformation.com/articles/openai-shifts-strategy-as-rate-of-gpt-ai-improvements-slows


排版:刘雅坤