专栏名称: 财联社AI daily
财联社及科创板日报旗下产品 ,聚焦TMT领域,更独家、更深度。
目录
相关文章推荐
启四说  ·  塞力转债单周赚12%,我为什么敢买问题债? ·  16 小时前  
启四说  ·  塞力转债单周赚12%,我为什么敢买问题债? ·  16 小时前  
爱可可-爱生活  ·  【Firecrawl Gemini 2.0 ... ·  2 天前  
指尖新闻沈阳晚报  ·  刚刚!央视元宵晚会节目单来了! ·  3 天前  
宝玉xp  ·  回复@stockGPT:一句话提示词:网页链 ... ·  3 天前  
51好读  ›  专栏  ›  财联社AI daily

最高降本83%!豆包向推理算力又“砍了一刀”

财联社AI daily  · 公众号  · AI 科技自媒体  · 2025-02-12 15:48

主要观点总结

文章介绍了UltraMem架构相较于传统MoE架构的优势,包括推理速度提升2-6倍,推理成本最高可降低83%,同时保持模型效果。该架构解决了大模型推理场景中的痛点,提高了AI应用的响应能力和速度,特别适用于资源受限的场景,如边缘计算和移动设备等。

关键观点总结

关键观点1: UltraMem架构的优势

UltraMem架构在保证模型效果的前提下,推理速度较传统的MoE架构提升2-6倍,推理成本最高可降低83%。解决了大模型推理场景中的痛点,如推理延迟、访存效率等问题。

关键观点2: UltraMem与MoE、PKM的比较

与传统的MoE和PKM架构相比,UltraMem在推理成本、推理速度等方面具有优势,同时保持了模型效果。实验结果表明,UltraMem在模型效果和推理速度方面均优于MoE和PKM架构,且在680M、1.6B规模模型上具有显著优势。

关键观点3: UltraMem的应用前景

UltraMem架构的突破将推动AI技术在更多领域的应用,特别是在资源受限的场景下,如边缘计算和移动设备等。对于用户而言,UltraMem架构的应用将提高AI应用的响应速度和交互流畅度,优化使用体验。


正文

图片
该架构在保证模型效果的前提下,推理速度较传统的MoE架构提升2-6倍,推理成本最高可降低83%。
文|宋子乔
豆包概念股午后大幅走强,汉得信息一度拉升封板,广和通、移远通信、润欣科技、博通集成等纷纷大幅冲高。

image

消息面上,据豆包大模型团队消息, 字节跳动豆包大模型Foundation团队近期提出一种全新的稀疏模型架构——UltraMem,该架构在保证模型效果的前提下,推理速度较传统的MoE架构提升2-6倍,推理成本最高可降低83%。
这项创新成果已被机器学习和AI领域的顶级会议ICLR 2025接收,为解决大模型推理效率和扩展能力问题提供了全新思路。

image

直指大模型推理场景中的痛点

大模型的推理能力对应的是端侧AI应用/工具的响应能力和速度。 随着模型规模的扩大,推理成本和访存效率已成为限制大模型规模应用的关键瓶颈。
在Transformer架构下,模型的性能与其参数数量和计算复杂度呈对数关系。随着LLM规模不断增大,推理成本会急剧增加,速度变慢。
为了解决计算问题, 先前的研究者提出了MoE和PKM(Product Key Memory)方案,但它们都有各自的局限性:
MoE架构牺牲了效率:MoE架构成功将计算和参数解耦,通过稀疏激活专家的方式,在训练阶段有效减少了计算量,但在推理时,由于模型在推理时只能一个字一个字的生成,batch size(批量大小)和sequence length(序列长度)通常较小,少量的token即可激活几乎所有的专家,进而导致访存急剧上升,进而使推理延迟大幅增加。
PKM架构牺牲了效果:PKM架构通过引入“行路由”和“列路由”机制,这种方法让每个token在推理时仅仅只激活极少数的value(与提示模板中的内容相关联的数据或信息),所以推理时不会遇到访存瓶颈,但其效果很差,且扩展能力有限,难以应对更大规模的模型需求。
这些局限性使得MoE和PKM在推理效率、模型效果和扩展能力等方面的优化空间仍需进一步探索。UltraMem正是为了解决上述痛点。
据介绍,UltraMem参考了PKM的设计,但针对PKM的缺陷予以补充,以实现更高效的访存、更优质的检索,同时,降低了显存和部署成本, 其优势主要在于:
降低推理成本:与传统的MoE架构相比,UltraMem在推理成本上实现了最高83%的降低,这对于大规模模型的部署和运行具有重要意义。
提升推理速度:UltraMem的推理速度相比MoE架构提升了2-6倍,这使得模型在处理大规模数据时更加高效。
保持模型效果:在降低推理成本和提升推理速度的同时,UltraMem还保持了模型的效果,确保了模型的准确性和可靠性。
豆包研究团队在151M、680M、1.6B三个不同规模的模型上进行了广泛的实验。实验结果表明,UltraMem在模型效果和推理速度方面均优于MoE和PKM架构,且在680M、1.6B上具有显著的效果优势。






请到「今天看啥」查看全文