专栏名称: AGI Hunt
关注AGI 的沿途风景!
目录
相关文章推荐
掌上铜山  ·  刚刚,徐州中小学新校历发布! ·  13 小时前  
掌上铜山  ·  刚刚,徐州中小学新校历发布! ·  13 小时前  
江苏教育新闻  ·  江苏部分学校通知,元宵节次日报到! ·  昨天  
江苏教育新闻  ·  江苏部分学校通知,元宵节次日报到! ·  昨天  
疯狂区块链  ·  暴富靠的是什么? ·  昨天  
好地讯江苏  ·  2月苏州6宗涉宅地待出让,总起价34.7亿( ... ·  4 天前  
51好读  ›  专栏  ›  AGI Hunt

大模型的摩尔定律来了!清华研究:模型密度每3个月翻一倍

AGI Hunt  · 公众号  ·  · 2024-12-11 00:00

正文

大语言模型正在变得越来越「高效」!

清华大学和ModelBest Inc最新研究发现:大模型的「密度」每3个月就翻一倍, 这意味着它们正在以惊人的速度变得更聪明、更节能

这个发现被称为「 Densing Law 」(密度定律)。

它揭示了一个重要趋势: 未来的AI发展不是比拼谁更大,而是比拼谁更「精」

密度:衡量模型智商的新标准

研究团队提出了一个新概念:「 容量密度 」。

简单来说,就是看模型的实际表现和它的体积到底配不配。

就像人类社会里,有的人「块头」不大但能力惊人,有的人「块头」很大但效率一般。 容量密度高的模型,就是那种「块头」适中但能力出众的选手

来看看这张图:

从图中可以看到,各种开源模型的密度在不断提升。 而且这个提升速度惊人:每3.3个月就翻一倍

ChatGPT:密度提升的催化剂

更有趣的是,研究发现 ChatGPT的发布直接把模型密度的增长速度提高了50%

上图清晰地展示了在ChatGPT发布前后,模型密度增长趋势的显著变化。

这说明 一个真正优秀的产品不仅改变了市场,还推动了整个技术领域的进步

高密度模型有什么用?

Ksenia Se(@Kseniase_)总结了高密度模型的几大优势:

  • 降低计算成本 :用更少的资源达到更好的效果

  • 适配普通设备 :让智能手机也能跑大模型

  • 节约能源 :避免不必要的能源消耗

研究还发现了一些有趣的现象:

  • 传统优化方法不一定有效 :常用的剪枝和蒸馏技术并不总能提高模型的效率

  • 硬件利用率提升 :同样的硬件能处理的工作量在不断增加,增速甚至超过了密度增长和芯片性能提升的速度

研究论文详细阐述了如何计算模型的容量密度。

简单说,就是通过 两步走

  • 先估算损失:将模型大小和训练数据与准确率联系起来

  • 再评估性能:用S形函数预测模型基于损失的表现

这项研究给我们的启示很简单: 与其一味追求更大的模型,不如想办法让现有的模型变得更高效

论文链接: https://arxiv.org/abs/2412.04315

👇







请到「今天看啥」查看全文