早上9点,召集不同中心科研人员讨论系统架构;10点,和外部专家沟通技术细节;中午,继续早上未完成的讨论;午饭后,和企业合作方商定测试方案;下午3点,和天基计算系统研究中心探讨项目规划;晚上,召开项目组例会,复盘一天的工作……作为之江实验室智能计算设施创新中心负责人,张汝云的一天划分得明确且紧张。
他早已习惯这样的状态,每天工作将近12个小时,依旧保持着全力投入的热情。长期在人工智能、计算机体系结构等领域从事科研和管理工作,张汝云承担了国家重点研发计划、重点基金、工信部创新发展工程项目等国家级重大项目6项,获国家科技进步一等奖1项,省部级科技进步一等奖4项、二等奖2项,并刚刚获评2024年浙江省劳动模范。
张汝云在表彰现场
眼下,张汝云正带领团队全力推进万卡智算集群建设任务——建成一个支撑人工智能大模型训练的高效能智能计算集群。万卡智算集群是实验室做强智能计算的底座,需要实验室多个研究中心以及外部单位的紧密协作,共同推进。
“这是一项有组织且高度耦合的工作,大家必须相互配合,朝着同一个最终目标去努力。” 张汝云说道,“一定要明确我们建设集群的目标,目标不一样,系统设计就不同,可能有的系统要求稳定性,有的系统强调精准性,然后根据目标来确定要素,设计总系统以及各个分系统,同时每个系统之间都留有接口,最后进行系统集成。”
时间紧、任务重、标准高,在这项复杂艰巨的任务面前,整个团队一刻也不敢放松。在张汝云的带领下,团队始终以实际行动践行着“无我”精神,协同拼搏。
张汝云和团队成员在讨论中(摄影 | 周志豪)
2024年春节期间,网络闪断问题影响了大模型训练,让团队成员压力巨大。“影响智算集群运行的因子有很多,服务器、线缆故障、交换机等等都有可能造成网络闪断,定位问题非常复杂。”团队骨干高翔回忆道,“问题直到大年二十九的深夜才解决,整个春节期间团队每天都有人在实验室,确保集群正常运行。”
在投入集群建设任务的数月里,高翔和团队伙伴经常工作到半夜三四点。“很多时候需要一鼓作气,可能这个问题今天不解决,明天再来就解决不了了。张汝云老师往往也会跟我们一起,给我们提供有力的支持和指导。”高翔说道。
坚持“问题发现到处理问题不过夜”,最大程度地确保了工作连续性和高效性。在张汝云的带领下,团队已经完成了万卡智算集群建设任务中最为关键的节点。