本文提出了一个统一的压缩 缩放率 框架,通过“有效参数计数”的概念,揭示了权重稀疏性和量化等压缩技术如何影响 LLM 的 scaling 行为,实验证明权重量化在保持参数效率方面表现出色,尤其仅权重化量化在低比特下依然有效,而全量化在 4 比特以下收益递减,为高效压缩和训练 LLM 提供了理论指导和实验依据,并为未来模型压缩技术的研究方向提供了新的视角。
知名互联网资讯博主 北邮PRIS模式识别实验室陈老师 |
![]() |
爱可可-爱生活 · 【[212星]neosr:开源的超分辨率模型 ... · 13 小时前 |
![]() |
爱可可-爱生活 · 【[109星]PRefLexOR:基于偏好的 ... · 18 小时前 |
|
机器之心 · 从零开始自主「起身站立」,上海AI ... · 昨天 |
|
量子位 · 花1699请DeepSeek当家教,值么? · 昨天 |
![]() |
爱可可-爱生活 · 【[37星]dpo-prefix-shari ... · 2 天前 |
![]() |
爱可可-爱生活 · 【[212星]neosr:开源的超分辨率模型训练框架,让图像恢复-20250226190033 13 小时前 |
![]() |
爱可可-爱生活 · 【[109星]PRefLexOR:基于偏好的递归语言建模,为推理-20250226133309 18 小时前 |
|
机器之心 · 从零开始自主「起身站立」,上海AI Lab发布最新控制算法,机器人:起猛了 昨天 |
|
量子位 · 花1699请DeepSeek当家教,值么? 昨天 |
![]() |
爱可可-爱生活 · 【[37星]dpo-prefix-sharing:让DPO训练速-20250224134014 2 天前 |
|
参考消息 · 动向 | 韩联社:韩国检方认定朴槿惠与崔顺实共谋作案 8 年前 |
|
采采 · ▷ 哪里有什么失身酒,只有不顾一切想睡的人丨听段子来了 8 年前 |
|
广东台今日关注 · 初三学生被飞脚踢断腿,校方:玩过头 8 年前 |
|
香港凤凰周刊 · 居住证制度出台背后 8 年前 |
|
人民日报 · 父亲赶路24小时回家,刚到家门口……眼前一幕让人泪奔! 8 年前 |