专栏名称: AI TIME 论道
AI TIME是一群关注人工智能发展,并有思想情怀的青年学者创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,链接全球AI学者,以辩论的形式探讨人工智能领域的未来。
目录
相关文章推荐
政事儿  ·  抖音辟谣! ·  20 小时前  
政事儿  ·  中国印钞造币集团严正声明 ·  2 天前  
底线思维  ·  泽连斯基会不会被“颜色革命”? ·  3 天前  
51好读  ›  专栏  ›  AI TIME 论道

Big Model Weekly 第14期

AI TIME 论道  · 公众号  ·  · 2024-03-22 19:37

正文

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!



1. GEAR: An Efficient KV Cache Compression Recipe for Near-Lossless Generative Inference of LLM


这篇论文摘要讨论了键 - 值( KV )缓存作为加速大型语言模型( LLMs )推理生成速度的事实标准。然而,随着序列长度的增加,缓存需求不断增长,将 LLM 推理转变为内存受限问题,显著限制了系统吞吐量。现有方法依赖于丢弃不重要的标记或对所有条目进行均匀量化。然而,这种方法通常会产生高逼近误差,以表示压缩矩阵。自回归解码过程进一步增加了每个步骤的误差,导致模型生成的关键偏差和性能恶化。为了解决这一挑战,本文提出了 GEAR ,一种高效的 KV 缓存压缩框架,实现了接近无损的高比例压缩。 GEAR 首先对大多数大小相似的条目进行量化,将其量化为超低精度。然后,它使用低秩矩阵来近似量化误差,并使用稀疏矩阵来补偿异常条目的个别误差。通过巧妙地整合三种技术, GEAR 能够充分利用它们的协同潜力。实验表明,与其他选择相比, GEAR 实现了接近无损的 4 KV 缓存压缩,吞吐量提高了最多 2.38 倍,同时将峰值内存大小减少了最多 2.29 倍。


文章链接:

https://arxiv.org/pdf/2403.05527.pdf








2. Algorithmic progress in language models


本文调查了自深度学习问世以来,用于预训练语言模型的算法改进速率。利用跨越 2012 年至 2023 年的 Wiketext Penn Treebank 上的 200 多个语言模型评估数据集,我们发现达到一定性能阈值所需的计算量大约每 8 个月减半一次, 95% 的置信区间大约为 5 14 个月,远远快于摩尔定律下的硬件进步速度。文中估计了增强缩放定律,从而能够量化算法进展,并确定模型缩放与训练算法创新之间的相对贡献。尽管算法进展迅速,并出现了新的架构,如 Transformer ,但分析表明,在此期间,计算量的增加对整体性能改进的贡献更大。尽管受到嘈杂的基准数据的限制,但本研究的分析量化了语言建模的快速进展,阐明了计算量和算法对进展的相对贡献。


文章链接:

https://arxiv.org/pdf/2403.05812.pdf







3. AutoEval Done Right: Using Synthetic Data for Model Evaluation


使用人工标记的验证数据评估机器学习模型可能既昂贵又耗时。可以使用 AI 标记的合成数据来减少此目的所需的人工注释数量,这个过程称为自动评估。本文提出了有效且统计原则的算法,以改善样本效率同时保持无偏性。这些算法在与 gpt-4 的实验中将有效的人工标记样本大小增加了高达 50%


文章链接:

https://arxiv.org/pdf/2403.07008.pdf






4. RAT: Retrieval Augmented Thoughts Elicit Context-Aware Reasoning in Long-Horizon Generation


本文探讨了如何通过信息检索来迭代修订一系列思考,显著提高大型语言模型在长期生成任务中的推理和生成能力,同时极大地减轻了虚构现象。具体来说,所提出的方法 —— 检索增强思考( RAT —— 在生成初始零样本 CoT 之后,逐步使用与任务查询、当前和过去思考步骤相关的检索信息修订每个思考步骤。将 RAT 应用于 GPT-3.5 GPT-4 CodeLLaMA-7b ,在各种长期生成任务中显著提高了它们的性能;相对提高了代码生成的评分约 13.63 %,数学推理 16.96 %,创意写作 19.2 %,以及实体任务规划 42.78 %的平均评分。


文章链接:

https://arxiv.org/pdf/2403.05313.pdf







5. Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking







请到「今天看啥」查看全文