专栏名称: 黄建同学
数码博主 超话主持人(ChatGPT超话) 头条文章作者 我的学习笔记,关注AI+新能源
目录
相关文章推荐
爱可可-爱生活  ·  【mdx - ... ·  2 天前  
新智元  ·  陶哲轩神预言!Transformer破解百年 ... ·  2 天前  
爱可可-爱生活  ·  【TileLang/tvm:开源深度学习编译 ... ·  4 天前  
爱可可-爱生活  ·  本文提出一种基于Stick-Breaking ... ·  5 天前  
51好读  ›  专栏  ›  黄建同学

如果你还没读过Meta发布Llama3.2 1B和3B的新量化版-20241028223251

黄建同学  · 微博  · AI  · 2024-10-28 22:32

正文

2024-10-28 22:32

如果你还没读过Meta发布Llama3.2 1B和3B的新量化版本模型的Blog,建议读一下。可以了解量化模型的基本知识。#ai##科技#

•相比于其他量化模型,需要在性能和质量之间做取舍,Llama的这款模型实现了性能和质量双提升:可将推理速度提高 2-4 倍,并且平均将模型大小减少 56%,内存占用减少 41%…… 主要得益于使用 LoRA 适配器进行量化感知训练。

• 使用了两种不同的技术来量化这些模型:使用 LoRA 适配器进行量化感知训练,优先考虑准确性;SpinQuant,优先考虑可移植性的训练后量化方法。

• 量化后的模型,可以在CPU设备上也运行良好。能够被更多人更多设备所使用。特别是以后手机等端侧设备,也能更流畅使用大模型。

访问Blog:网页链接
如果你对量化的概念不熟悉,之前也介绍过量化(基于Embedding来介绍的):网页链接

ChatGPT