专栏名称: 爱可可-爱生活
知名互联网资讯博主 北邮PRIS模式识别实验室陈老师
目录
相关文章推荐
爱可可-爱生活  ·  [LG]《Newton Losses: ... ·  3 天前  
爱可可-爱生活  ·  [LG]《Mixture of ... ·  3 天前  
51好读  ›  专栏  ›  爱可可-爱生活

本文通过系统研究不同硬件配置和训练策略对小型语言模型训练成本效率-20241029054338

爱可可-爱生活  · 微博  · AI  · 2024-10-29 05:43

正文

2024-10-29 05:43

本文通过系统研究不同硬件配置和训练策略对小型语言模型训练成本效率的影响,发现Flash Attention对小型模型尤为重要,并提出了一种新的成本效益评估指标“每美元Token数”,为低资源环境下的高效SLM训练提供了实用指导。
[LG]《Computational Bottlenecks of Training Small-scale Large Language Models》S Ashkboos, I Mirzadeh, K Alizadeh, M H Sekhavat... [Apple] (2024) 网页链接 #机器学习##人工智能##论文#