随着人工智能技术的迅猛发展,模型训练成为推动AI应用创新与升级的核心环节。
然而,面对海量数据的处理需求,如何高效、快速地完成模型训练成为行业共同面临的挑战。
Alluxio
作为全球领先的AI高性能数据访问平台,一直被广泛的应用于AI模型训练与部署的核心阶段。继“AI 模型训练加速沙龙”城市行系列活动走过北京和杭州两地之后,在8月末,我们将联合
货拉拉、DataFun
走进深圳,邀请到来自
科研院所
、跨境电商、AI大模型服务商
等AI Infra专家,一同将更多的 AI 新趋势、新技术以及新的应用实践带给大家。
诚挚邀请AI Infra 相关的技术负责人、架构师、存储开发、运维、研究员、生态合作伙伴报名参与。
活动时间:2024年8月31日(周六)14:00-17:00
活动地点:深圳市福田区梅林街道新一代产业园 2 栋 20 楼
张松昕,南方科技大学统计与数据科学系研究学者,
UCloud
顾问资深算法专家,曾任粤港澳大湾区数字经济研究院访问学者,主导大模型高效分布式训练框架的开发,设计了SUS-Chat-34B的微调流程,登顶Open LLM Leaderboard、Opencompass 同参数量级模型榜首。
Scaling law表明,大模型需要在互联网级别的海量数据上进行训练, 但现有的大模型训练方案基本上仍然采用过去小规模数据的简单训练范式, 难以匹配现有需求。我们从底层训练框架出发,重新设计了数据在训练过程中的生命周期, 使数据开发与模型训练解耦, 改善了大模型训练中大规模数据处理及治理的难题. 从而将数据和算法在大模型开发周期中可以在同等层次上对待,还为大模型训练提供了更加灵活和智能的解决方案。这项研究为未来的大模型训练开辟了新的方向,不仅在理论上具有重要意义,也在实际应用中展现出巨大的潜力。
主题二:Alluxio AI 3.3 新版本发布
及新一代AI/ML训练中台的数据I/O解决方案
麦嘉铭,Alluxio资深工程师。曾就职于阿里云、
BIGO
和腾讯音乐,多年 Presto/Trino 和
ClickHouse
的开发和运维经验,包括内核研发、线上问题诊断、数百节点集群稳定性保障等。在计算机视觉领域相关的顶级国际期刊和会议发表多篇论文,出版著作《机器学习算法框架实战》。目前在Alluxio负责AI训练和大数据查询等场景的存储加速性能优化。
在以数据驱动的AI时代,高效访问存储中的大量数据对于模型训练和服务至关重要。然而,I/O 挑战往往会阻碍性能并限制 GPU 的利用率。
本次分享,我们将
现场发布Alluxio AI的最新版本
,新版本将带来
众多新功能和亮点
。同时麦嘉铭工程师将介绍基于 Alluxio 构建的高性能数据访问层,如何克服 I/O 挑战并显著提高 GPU 利用率。通过丰富的用户案例和实验数据,您将了解在Alluxio中缓存数据集和模型的方法以及在性能方面的提升。
主题三:Shopee在Alluxio加速AI训练的实践与探索
孙颢宁来自Shopee公司,是数据基础架构部门存储团队的开发工程师,他们团队专注于
分布式存储
技术研发及应用,为Shopee提供高性能、高可靠、易用的存储服务。孙颢宁有丰富的大数据开发经验,在GitHub平台上非常活跃,喜欢为开源社区贡献代码,也是Alluxio开源社区的Committer成员。
本次演讲的主题是围绕Alluxio团队与AI平台团队的合作来展开,主要介绍四部分内容:
AI平台在使用Alluxio过程中遇到的性能问题及解决方法,包括顺序读与随机读的性能问题、训练LLM时的OOM问题、load的任务分发及内存分配问题、load数据时的写性能下降问题;
升级Alluxio-2.7到Alluxio-2.9所做的工作;
与AI平台的下一步合作方向,checkpoint的读写优化;使用Fuse3提供服务。
凌晨,字节跳动对象存储研发负责人,为字节内部包括抖音、Tiktok、头条等超级APP提供非结构化数据存储服务。同时在火山引擎面向公有云场景打造高可用低成本的对象存储服务。加入字节前,在华为从事存储相关研发工作10余年。