RSQ 论文创新性地提出了一种基于 token 重要性的后训练量化框架,通过旋转权重、重要性缩放和结合注意力集中策略,显著提升了低比特率量化后大语言模型在下游任务和长文本任务上的性能,揭示了在模型压缩过程中优先学习重要信息而非均匀压缩所有信息的反直觉但有效的策略。
知名互联网资讯博主 北邮PRIS模式识别实验室陈老师 |
|
量子位 · 阿里推理模型一战封神!32B硬刚671B ... · 16 小时前 |
|
股妖姬 · AI教育领域的领航者:这些企业正在重塑未来教育 · 16 小时前 |
|
股妖姬 · AI教育领域的领航者:这些企业正在重塑未来教育 · 16 小时前 |
![]() |
爱可可-爱生活 · //@爱可可-爱生活:欢迎参与!//@爱可可 ... · 昨天 |
![]() |
爱可可-爱生活 · RSQ 论文创新性地提出了一种基于 ... · 昨天 |
![]() |
宝玉xp · //@明风:这个文章写得非常到位,基础模型不 ... · 2 天前 |
|
量子位 · 阿里推理模型一战封神!32B硬刚671B DeepSeek,1/10成本,苹果笔记本可跑 16 小时前 |
|
股妖姬 · AI教育领域的领航者:这些企业正在重塑未来教育 16 小时前 |
|
股妖姬 · AI教育领域的领航者:这些企业正在重塑未来教育 16 小时前 |
![]() |
爱可可-爱生活 · //@爱可可-爱生活:欢迎参与!//@爱可可-爱生活:粉丝购书五-20250305080111 昨天 |
![]() |
爱可可-爱生活 · RSQ 论文创新性地提出了一种基于 token 重要性的后训练量-20250305060359 昨天 |
![]() |
宝玉xp · //@明风:这个文章写得非常到位,基础模型不扎实的模型,即便是加-20250304124820 2 天前 |
|
北京吃货小分队 · 这部片让我心甘情愿下面给你吃 8 年前 |
|
体育蓝皮书 · 国家体育总局局长苟仲文:“天价球员”意在商业而非体育 将出台措施严格整治 7 年前 |
|
健康与养身 · 十个早衰的坏习惯,你有几个? 7 年前 |
|
InternetDeep · 2017中国工业机器人企业排行榜 7 年前 |
|
德州政府网 · 德州市举行纪念中国共青团建团95周年暨五四运动98周年大会 表彰青年先进,共146个集体、185名个人 7 年前 |