专栏名称: 深度学习与图网络
关注图网络、图表示学习,最近顶会顶刊动态以及机器学习基本方法,包括无监督学习、半监督学习、弱监督学习、元学习等
目录
相关文章推荐
中国航务周刊  ·  新华·泛亚航运中国内贸集装箱运价指数周报(X ... ·  2 天前  
中国航务周刊  ·  宁德时代与国际物流巨头签约 ·  3 天前  
中国航务周刊  ·  货代巨头紧急预警:该国港口持续罢工…… ·  4 天前  
中国航务周刊  ·  【货主论坛】“2025跨境冷链与国际贸易协同 ... ·  3 天前  
中国航务周刊  ·  【招聘】东莞港务集团全球招聘中高层管理人才! ·  3 天前  
51好读  ›  专栏  ›  深度学习与图网络

WWW Cup 2025内存故障预测挑战赛

深度学习与图网络  · 公众号  ·  · 2025-01-26 11:57

正文

Memory Failure Prediction @ WWW Cup 2025 邀你来参加!



万卡集群多部件,高耦合,故障发生牵一发动全身,高可用性是业界难题。WWW 2025 于悉尼举办,华为云发布 WWW Cup: Memory Failure Prediction Challenge ,冠军奖金 4.5 万元,邀你来参加,共同探索数据中心集群稳定性创新方案。
背景:
随着人工智能、大数据、云计算等技术的飞速发展,云数据中心硬件可靠性已成为当前业界广泛关注的热点。比如在大规模分布式训练场景中,单个节点的硬件故障可能导致整个训练任务中断,甚至引发数据丢失或模型损坏。这不仅会造成大量计算资源和时间的浪费,还可能严重影响模型训练的收敛性和最终性能,硬件故障也是当前大规模集群运营中面临的最关键问题。
内存作为计算机系统中关键部件,计算机中所有程序的运行都在内存中进行,其稳定性与可靠性直接关系到整个系统的运行效率和数据安全,尤其是高带宽存储器技术的应用,更是将内存的重要性推向了一个新的高度。

赛事:
Memory Failure Prediction @ WWW Cup 2025 发布了首个包含宏观和微观比特信息的大规模数据中心内存运行状态数据集 (SmartMem),并且根据实际应用构建了相应的评测流程,旨在汇聚全球数据科学家和机器学习领域的专家,共同探索和开发出能够有效应对开放世界机器学习问题的先进算法和技术,以提高故障预测的准确性和可信性。参赛者基于提供的内存静态信息、内存故障地址数据、内存纠错信息,以及故障标签数据,对内存故障机理进行探索,挖掘出与内存故障相关的特征,并构建出一个能够准确预测是否会发生内存故障的模型。
ACM International World Wide Web Conference(WWW) 会议是信息检索、推荐系统领域顶级会议 (CCF-A),从 1994 年开始每年举办,今年将会在 4 月 28 号在美丽的悉尼召开。本次比赛不仅提供最高 4.5 万人民币奖金,优胜团队还将受邀与来自业界和学术界的专家们在 workshop 中交流讨论。通过本次竞赛,我们期待推动硬件故障预测技术的突破,为构建更加稳定、可靠的算力基础设施系统提供强有力的支持,同时也为开放世界机器学习领域的研究和实践积累宝贵经验。
数据集以及入门工具包与基线均已发布,初赛报名提交截止时间 3 月 1 号,走过路过不要错过哟!

时间安排:

  • 竞赛开始时间:2025 年 1 月 15 日

  • 第一阶段:2025 年 1 月 15 日 ~ 2025 年 3 月 1 日

  • 第二阶段:2025 年 3 月 1 日 ~ 2025 年 3 月 15 日

  • 获奖团队发布:2025 年 4 月 1 日







请到「今天看啥」查看全文