速度往往决定着商业的成败。
模型训练的加速意味着企业能够更快地开发出新的AI产品或服务,从而更快地推向市场,满足客户需求。这种快速响应能力有助于企业在竞争中抢占先机,获得市场优势。不仅如此,加速还意味着企业能减少训练所需时间,从而降低硬件资源的占用和能源消耗,带来更高的ROI。
Alluxio作为全球领先的AI高性能数据访问平台,一直被广泛的应用于AI模型训练与推理的核心阶段。继AI Infra Meetup 北京站之后,
Alluxio携手云原生数据库管理软件KubeBlocks一同走进杭州
,邀请到来自数字金融、视频网站、智慧出行等头部企业的AI Infra专家,将为AI领域的技术伙伴们带来一场精彩线下沙龙。
诚挚邀请AI Infra 相关的IT/技术负责人、架构师、开发及研究人员、生态合作伙伴报名参与。
活动时间:2024年6月22日(周六)14:00-17:00
联合主办:Alluxio社区、KubeBlocks社区
活动地点:杭州市余杭区五常街道赛银国际12-901
主题一:Alluxio AI 3.2发布 - 新一代AI/ML训练中台的数据I/O解决方案
在以数据驱动的AI时代,高效访问存储中的大量数据对于模型训练和服务至关重要。然而,I/O 挑战往往会阻碍性能并限制 GPU 的利用率。
本次分享,我们将
现场发布Alluxio AI的最新版本
,新版本将带来
众多新功能和亮点
。同时傅正佳博士将介绍基于 Alluxio 构建的高性能数据访问层,如何克服 I/O 挑战并显著提高 GPU 利用率。通过丰富的用户案例和实验数据,您将了解在Alluxio中缓存数据集和模型的方法以及在性能方面的提升。
主题二:把向量数据库跑在K8s上,以Qdrant为例
近年来,随着人工智能和机器学习技术的不断发展,向量数据库在许多应用场景中发挥了重要作用。向量数据库能够高效地存储和检索基于向量的数据,为相似性搜索、推荐系统等提供支持。
然而,传统的向量数据库部署和运维通常较为复杂,迫切需要一种更加敏捷、可扩展的解决方案。本次演讲将以开源的向量数据库 Qdrant 为例,探讨如何通过KubeBlocks将其部署在 Kubernetes 容器平台上,充分利用 K8s 的弹性扩展、自动化部署等特性,打造一个高可用、易维护的向量数据库集群。
测试 Qdrant 在 K8s 上的性能和可用性;
总结和展望,探讨向量数据库在 K8s 上的发展趋势。
当前随着大模型技术的快速发展,训练的数据规模越来越大,数据的模态也越来越复杂。比如在多模态场景中,单次训练的样本图片数量可能达到十亿甚至百亿级别并且需要同时处理视频、图片、音频、文本等多种模态数据。为了提高训练效率,减少训练过程中因数据读写开销导致的GPU资源浪费,存储系统需要能够支撑海量文件的元数据管理并具备扩展能力。除此之外,训练任务运行时checkpoint写入频率也在逐步加快,从天级到分钟级,对于千亿以上参数规模的训练任务每秒写入吞吐会达到TB级数据。这些都对当前的存储产品都是一个巨大挑战。为了解决这些问题,蚂蚁构建了一套大模型缓存加速系统PCache,采用近端加速以及面向AI数据特性的缓存策略,从数据预处理到样本数据读取,再到运行时checkpoint写入,为各类型的大模型训练任务提供海量数据场景下,读写全链路整体的高性能和低成本的解决方案。除了数据链路,为了适应当前多AI算力中心的趋势,PCache还采用云原生的架构,提高了建站效率和故障时的高可用性;以及通过云原生的全增量一体数据同步系统提高了各AI站点之间的数据迁移效率,为训练任务的算力调度提供了基础保障。
在AI训练中,存储是至关重要的,然而其高成本、低效率和复杂的管理常是挑战。Alluxio作为高性能分布式缓存系统,在实际生产中能有效解决这些难点。通过缓存数据、简化管理及提供统一接口,极大地提高了数据访问速度和效率。与各种存储系统的无缝集成降低了成本,简化了管理流程。Alluxio缓存系统的引入,更好地支持了B站大规模AI训练,加速AI技术的发展与应用。