专栏名称: 人工智能学派

人工智能学派专注于分享：GPT、AIGC、AI大模型、AI算力、机器人、虚拟人、元宇宙等AI+160个细分行业！

目录

相关文章推荐

半月谈 · “巴不得体育课被占”？为啥很多学生不爱上体育课了 · 昨天

中国政府网 · 中央政治局委员、书记处书记等向党中央和习近平 ... · 昨天

瞭望智库 · 未来十年教育大变局：你的孩子将如何受益？ · 昨天

半月谈 · 打卡 | ... · 2 天前

半月谈 · 泽连斯基：愿立即辞职！但有条件 · 3 天前

51好读 › 专栏 › 人工智能学派

2024腾讯AngelPTM大模型训练框架优化与实践支撑混元大模型训练的训练框架

人工智能学派 · 公众号 · · 2024-10-24 18:58

正文

如何下载资料？

微信扫下方二维码加入星球平台

【老会员续费特惠】

今天分享的是：2024腾讯AngelPTM大模型训练框架优化与实践支撑混元大模型训练的训练框架-薛金宝

报告共计：25页

该报告介绍了腾讯AngelPTM大模型训练框架的优化与实践，主要内容包括：首先阐述大模型发展趋势，如参数规模指数级增长、模态变化多样、MOE及更长Context Window应用等，同时面临显存需求大、网络通信量大、算力规模大等训练挑战。接着详细介绍AngelPTM框架，其突破低端卡限制，性能领先，产出混元万亿参数模型，训练和推理性能分别是业界开源框架的2.6倍和2.3倍，单个训练任务可突破万卡规模，GPU利用率高，成本下降。然后阐述框架的多项技术优化，如ZeROCache存储优化技术提升模型容量，多维并行加速训练效率，大规模计算通信流水线与低精度量化技术降低开销，MOE并行策略实现万亿MOE模型高效训练，Context并行实现大Context Window训练，负载均衡的流水并行与特定重计算，以及整体训练性能优势明显。最后介绍大规模训练面临的问题及优化成果，包括通信压力、故障频繁等挑战，通过通信拓扑感知、稳定性优化等措施，实现万卡加速比99%，任务稳定性99.5%，支撑腾讯混元及600 +个业务训练。

以下为报告节选内容

扫下方二维码加入我们

请到「今天看啥」查看全文

推荐文章

半月谈 · “巴不得体育课被占”？为啥很多学生不爱上体育课了

昨天

中国政府网 · 中央政治局委员、书记处书记等向党中央和习近平总书记述职

昨天

瞭望智库 · 未来十年教育大变局：你的孩子将如何受益？

昨天

半月谈 · 打卡 | 如何持续增强粮食等重要农产品供给保障能力？

2 天前

半月谈 · 泽连斯基：愿立即辞职！但有条件

3 天前

心理测试 · 好变态。。。我喜欢！

8 年前

普象工业设计小站 · 【设计日常】你离脱单只差一个玻璃杯

7 年前

筑龙电气 · 做电气专业负责人，你准备好了吗？

7 年前

TechWeb · 用3D人脸扫描代替Touch ID 安不安全？

7 年前

美国高中留学 · 中国家长花光3万月薪也要供孩子教育，美国人却忙着歧视学霸

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!