专栏名称: 之江实验室
之江实验室官方公众号。之江实验室由浙江省政府、浙江大学、阿里巴巴集团共同出资打造,以网络信息、人工智能为研究方向。以国家目标和战略需求为导向,以重大科技任务攻关和大型科技基础设施建设为主线,打造一批世界一流的基础学科群。
目录
相关文章推荐
51好读  ›  专栏  ›  之江实验室

浙江省劳动模范张汝云:明确目标 相互协作 锻造强大凝聚力

之江实验室  · 公众号  ·  · 2024-05-01 11:21

正文

早上9点,召集不同中心科研人员讨论系统架构;10点,和外部专家沟通技术细节;中午,继续早上未完成的讨论;午饭后,和企业合作方商定测试方案;下午3点,和天基计算系统研究中心探讨项目规划;晚上,召开项目组例会,复盘一天的工作……作为之江实验室智能计算设施创新中心负责人,张汝云的一天划分得明确且紧张。

他早已习惯这样的状态,每天工作将近12个小时,依旧保持着全力投入的热情。长期在人工智能、计算机体系结构等领域从事科研和管理工作,张汝云承担了国家重点研发计划、重点基金、工信部创新发展工程项目等国家级重大项目6项,获国家科技进步一等奖1项,省部级科技进步一等奖4项、二等奖2项,并刚刚获评2024年浙江省劳动模范。


张汝云在表彰现场

眼下,张汝云正带领团队全力推进万卡智算集群建设任务——建成一个支撑人工智能大模型训练的高效能智能计算集群。万卡智算集群是实验室做强智能计算的底座,需要实验室多个研究中心以及外部单位的紧密协作,共同推进。

“这是一项有组织且高度耦合的工作,大家必须相互配合,朝着同一个最终目标去努力。” 张汝云说道,“一定要明确我们建设集群的目标,目标不一样,系统设计就不同,可能有的系统要求稳定性,有的系统强调精准性,然后根据目标来确定要素,设计总系统以及各个分系统,同时每个系统之间都留有接口,最后进行系统集成。”

时间紧、任务重、标准高,在这项复杂艰巨的任务面前,整个团队一刻也不敢放松。在张汝云的带领下,团队始终以实际行动践行着“无我”精神,协同拼搏。

张汝云和团队成员在讨论中(摄影 | 周志豪)

2024年春节期间,网络闪断问题影响了大模型训练,让团队成员压力巨大。“影响智算集群运行的因子有很多,服务器、线缆故障、交换机等等都有可能造成网络闪断,定位问题非常复杂。”团队骨干高翔回忆道,“问题直到大年二十九的深夜才解决,整个春节期间团队每天都有人在实验室,确保集群正常运行。”

在投入集群建设任务的数月里,高翔和团队伙伴经常工作到半夜三四点。“很多时候需要一鼓作气,可能这个问题今天不解决,明天再来就解决不了了。张汝云老师往往也会跟我们一起,给我们提供有力的支持和指导。”高翔说道。

坚持“问题发现到处理问题不过夜”,最大程度地确保了工作连续性和高效性。在张汝云的带领下,团队已经完成了万卡智算集群建设任务中最为关键的节点。







请到「今天看啥」查看全文