专栏名称: NaturePortfolio
Nature Research官方账号,介绍中国及世界科技出版业最新动态,如何在Nature及其子刊上发表论文,针对中国研究人员的最新产品及服务。
目录
相关文章推荐
研之成理  ·  天津大学姜忠义/武美玲/周凯歌等Nat. ... ·  4 天前  
募格学术  ·  北京高校,拟整体搬迁!将腾退5个校区! ·  2 天前  
NaturePortfolio  ·  Springer优秀期刊推荐第一弹︱物质科学与应用 ·  3 天前  
NaturePortfolio  ·  多余的人 |《自然》科幻专栏 ·  4 天前  
募格学术  ·  这所师范高校,力争更名! ·  4 天前  
51好读  ›  专栏  ›  NaturePortfolio

超级计算机“前沿”的一天 |《自然》长文

NaturePortfolio  · 公众号  · 科研  · 2025-02-07 12:40

正文


本篇《自然》长文共4557字,干货满满,预计阅读时间14分钟,时间不够建议可以先“浮窗”或者收藏哦。


原文作者: Sophia Chen

在田纳西州东部的小山上,破纪录的超级计算机“前沿”正为科学家们提供未曾有过的机遇,研究从原子到星系的万事万物。

超级计算机““前沿””占地比两个篮球场还大一些。来源:Nick McGinn for Nature

田纳西州橡树岭

超级计算机“前沿” (Frontier) 位列超算界的速度之冠。但这台有将近50000个处理器的极速英雄也是有极限的。在四月的一个晴朗的周一,为了达成世界各地科学家们请求它做的工作,它的电力消耗直线上升。


电力需求峰值达到约27兆瓦特,足以为一万户家庭提供电力 ,“前沿”所在的橡树岭国家实验室的领导计算设施的科学主任Bronson Messor说。他带着一丝骄傲,用一句当地俗语来描述超级计算机的工作效率:“他们把这台机器跑得像着火的狗一样快。”


“前沿”能以创纪录的速度处理数据,比10万台笔记本电脑同时工作还快。它在2022年刚建好的时候,是第一台突破了百亿亿次计算的超级计算机——也就是执行超过每秒10 18 次浮点运算。橡树岭的这台巨物是几十年来超级计算机越做越大的全球趋势下的新榜首 (尽管在军方实验室或者其他秘密设施里也许有更快的计算机)


但速度和规模只是“前沿”的次要目的;它的主要目的是推进人类知识的界限。 “前沿”善于模拟大尺度模式下的小尺度细节,例如云里的细小液滴会如何影响到地球气候暖化的速度。研究者们在使用超级计算机制作从亚原子粒子到星系的各种先进模型。一些项目正在模拟蛋白质以辅助开发新药、模拟湍流以改进飞机引擎设计,或制作可与Google和OpenAI的人工智能 (AI) 工具媲美的开源大语言模型 (LLM)


研究者们从全世界各地登入“前沿”。2023年,这台超级计算机有来自18个国家的1744名用户。橡树岭预计,2024年“前沿”的用户会发表至少500篇基于这一设备所作计算的论文。


“‘前沿’很像詹姆斯·韦布太空望远镜。” 橡树岭国家实验室的生物物理学家Dilip Asthagiri说,“我们应该把它看成一台科学仪器。”

机器内部

“前沿”的核心位于一个仓库大小的房间,里面充斥着稳定的电子嗡鸣,轻得可以被说话声盖过。在房间里有74个一样的黑色架子,总共承载了9408个节点。这些就是一台超级计算机的核心。每个节点包含了4个图形处理器 (GPU) 和1个中央处理器 (CPU)


技术员Corey Edmonds说,一组工程师持续监控这台机器,关注问题迹象,Edmonds就职于建造这台超级计算机的慧与科技 (Hewlett Packard Enterprise) 公司。Edmonds驻扎在橡树岭,这天负责“前沿”的维护工作。在修复完一个节点之后,他从注射器里把灰色导热膏挤到银色、长方形的GPU上——节点的4个GPU之一。这能帮助GPU快速散热,保持低温。


“前沿”的速度主要是因为大量使用GPU。 这些芯片最早是被开发来为电脑游戏玩家渲染拟真图像的,现在则通过机器学习应用推动AI的前进。


“它们真的跑得很快。”Messer说,“但它们也超级笨。”GPU在同时处理大量数据的时候很强——别的倒不怎么样。“它们可以重复重复再重复地做一件事。”他说,这让它在超级计算机所执行的快速工作上很有用。


研究者们必须定制代码,以最好地利用“前沿”的GPU。Messer把第一次用“前沿”的科学家比作郊区司机开赛车。“都有方向盘,油门和刹车。”他说,“但把普通的司机塞到方程式赛车里从这开到那,这可不容易。”

大科学

研究者想有机会用“前沿”并不容易。四月的这个周一,Messer和三个同事们开会评估提交上来的研究提案。平均说来,每四份提案中有一份能通过,去年共有131个项目获得了计算时间。 申请者尤其需要证明,他们的项目可以充分利用超级计算机的整个系统。


他们提供的最常见的分配是大约50万个节点时,相当于整个机器连续跑3天。他们最多分配过4倍于此的数量。Messer说,在“前沿”获得了计算时长的研究者得到的计算资源是别处的十来倍。


这天,他的团队正在分配每周一次、约2万节点时的小型算力。很多项目都在利用“前沿”能够同时模拟很大范围时空尺度的能力。“前沿”每年能提供约6500万节点时。

在“前沿”工作的技术员。它有5万处理器,用水冷却。来源:Nick McGinn for Nature

例如,科学家想用“前沿”模拟准确的生物过程,例如溶液中的蛋白质或核酸与其他细胞之间的交互。


今年五月,Asthagiri和橡树岭的高性能计算工程师Nick Hagerty使用“前沿”模拟了一个方块形状的液滴,其中包含了1550亿个水分子。“这是为了把计算机推到极限。”Asthagiri说。模拟出的立方体只有人类头发宽度的十分之一,而它位列目前原子级模拟之巅,Asthagiri说。这项工作尚未发表在同行审议过的期刊上。


这些初步模拟正逐步构建出更为远大的目标: 从原子开始,模拟整个细胞。 近期,研究者们想要模拟一个细胞器,用来为实验室实验提供信息。他们还在努力将“前沿”对生物材料的高分辨率模拟和利用X光自由电子激光的超快速成像结合起来,加快发现的速度。


有了“前沿”,气候模型也更准确了。 2023年,橡树岭的气候科学家Matt Norman和其他研究者们用超级计算机跑了一次全球的气候模拟,分辨率达到了3.25千米。只有“前沿”的计算能力能让他们在这个分辨率下做出十年预测。模型还考虑到了云的复杂运动所产生的效果,其分辨率甚至更细。“它用了‘前沿’全部力量才做到。”Norman说。


模型要在其他计算机上获得相同的分辨率,并考虑到云的效应,速度要慢很多,他说。这对想要做预报的气象科学家们来说是个很大的阻碍,因为云的活动会影响到全球能量的移动。


一个天气和气象预报要想实用,需要至少每天运行一个模拟年。”前沿”每天可以用这个模型模拟1.26年 [1] ,这让研究者们可以做出比之前更准确的50年预报。


“前沿”还提高了宇宙尺度分辨率。 匹兹堡大学的天体物理学家Evan Schneider使用超级计算机研究了银河大小的星系会随着时间如何演化。“前沿”的星系模型跨越了4个数量级,高达10万光年 (30660秒差距) 。在“前沿”出现之前,她能用相同分辨率模拟的结构顶多是矮星系,质量只有前者五十分之一。


Schneider模拟了超新星如何让气体泄露出这些星系 [2] 。随着时间推进,几千到百万个超新星爆发一同释放出了巨量的气体,最终离开星系 [3] 。因为这些气体是新恒星出生的原材料,恒星的形成速度会随着星系变老而减慢。“前沿”让Schneider可以引入其他计算机难以实现的更热的气体的影响。她的模拟表明,当前的宇宙模型低估了这些炽热气体在星系演化中起到的作用。


AI研究者也抢着要“前沿”的GPU时间,因为GPU在训练基于神经网络的架构这方面作用斐然,例如ChatGPT底层的变换器模型就是用GPU训练的。“前沿”有着将近38000个GPU,在AI研究的公开领域拥有独特的地位——除了它之外,该领域几乎完全被工业界把持。


阿肯色大学的经济学研究者Nur Ahmed和同事们在2023年的一篇评论中 [4] 强调了学术界和工业界在AI上的巨大差距。2021年,最大的AI模型中有96%都来自工业界。平均来说,工业界的模型是学术界的接近30倍。两者之间的差距从投资额来看也很显著。国防以外的美国政府机构于2021年提供了15亿美元支持AI研究。同年,全球工业界投入了3400多亿。

注意差距

商用的大语言模型发布后,两者之间的差距还会增加,Ahmed说。例如,训练OpenAI的GPT-4的计算资源耗资约7800万美元,而Google花了1.91亿美元训练Gemini Ultra (见go.nature.com/44ihnhx) 。投资额的差别让工业界和学术界的研究者们能使用的计算资源有着天壤之别。


工业界正在拓展基础AI研究的边界,而这可能会让该领域产生问题,Ahmed等人在论文中写道。例如,工业界的主导可能会致使缺乏基础研究,这些研究不能迅速产生利润和结果。比如说,AI技术发展忽视了低收入社群的需求,他们说。在一篇未发布的研究中,Ahmed分析了600万篇同行审议过的文章,以及3200万篇引用的专利,发现“平均说来,工业界往往忽视全球南方边缘群体的一些顾虑”。


此外,很多模型有性别和种族歧视方面的问题,很多商用的基于AI的面部识别系统已有此问题。学术界可以作为评审来评估AI模型的风险,但为此他们需要能获得与工业界同等规模的计算资源,Ahmed说。


这就是用上“前沿”的时候了。当橡树岭批准了一个项目的申请之后,研究者们就可以免费使用超级计算机,只要他们会公布结果。这能帮助大学的研究者们与公司竞争,马里兰大学的计算机科学家Abhinav Bhatele说。“学术界想训练出同等规模的模型,得有‘前沿’这样的资源。”


Bhatele正在使用“前沿”开发开源LLM,以抗衡工业界的模型 [5] “通常当公司训练模型的时候,他们会保留所有权,并且不公开模型的权重。”Bhatele说,“有了这个公开的研究,我们就可以让这些模型免费给所有人用。”在接下来的一年里,他和他的团队的目标是训练出一系列不同规模的LLM,并且他们会把这些模型及其权重开源。他们还让训练模型的软件免费可用了。Bhatele说,这么一来,“前沿”在该领域“民主化”AI的运动 (让更多人能参与技术发展) 当中就起到了关键作用。

竞赛持续

离“前沿”所在的房间几扇门之外,它的前身还在为全世界科学家们辛劳工作。这台计算机“顶点”于2018到2019年保持了计算机的速度记录,现在则在世界上公用超级计算机中速度排名第九。它长长的黑色铬合金架子和“前沿”很像,但冷却系统的噪声更大,速度也只有八分之一。


“顶点”的历史预示了“前沿”的未来。 “前沿”在2022年第一次上榜,很可能不久之后就会被取代。 第二位的超级计算机,阿贡国家实验室的“极光”,预计做些改进就能超过“前沿”的性能。加州劳伦斯利弗莫尔国家实验室的“酋长岩”在24年晚些时候上线,预计未来也会超越”前沿”。还有一台是德国的百亿亿次级超级计算机“木星”,在24年晚些时候启动。


地缘政治紧张加剧令事情更为复杂。 “前沿”的称号来自一个叫TOP500的组织中每年两次发布的排名。该组织基于一个解稠密线性方程的基准测试任务中报告的性能,为全球超级计算机排行。


但计算机专家说,美国和中国很可能不会公开共享他们计算设备的情报,特别是因为两国之间的气氛有些紧张。“超级计算机领域好像存在某种竞赛。”华盛顿特区智库亚特兰大委员会的政策研究者Kevin Klyman说。事实上,2022年,美国总统乔·拜登的内阁开始控制对中国的半导体出口,其中特别提到了对中国超级计算机能力的担忧。


在超级计算机的擂台上,气氛早在好几年前就开始紧张了。特别是2016年中国在TOP500列表中的超级计算机数量超越了美国。“那让美国引起不小的焦虑。”Klyman说,“很多美国的政策制定者说:‘我们该怎么赶上排名?’”


目前,TOP500六月排行榜,中美两国的超级计算机数量名列前茅。美国有168台,而中国有80台。不过,研究者们觉得两个国家有未公布的超级计算机。排名里中国的计算机数量和去年十一月的榜单相比减少了,当时有104台。而中国未报告任何新的超级计算机的数据。


橡树岭已经开始筹备“前沿”的下一代“发现”了,计算速度会是“前沿”的3-5倍。它会是这几十年追求速度之旅中的新成果 (见‘速度纪录’) 。“前沿”比2014年的速度冠军天河2A快35倍,比2004年的地球模拟器快33000倍。

Source: www.TOP500.org

研究者们渴望更快的速度。比如说,更大的计算机可以让Schneider以更高的分辨率模拟星系。它还能给科学家们更大的计算预算。


但工程师们要面对一个持续的挑战:超级计算机消耗大量能源,而未来的计算机可能还要用更多。 所以研究者们在不断推动能源效率的进步。“前沿”的能源效率是“顶点”四倍有余,主要是它使用常温的水来冷却,而“顶点”需要冷却水。“前沿”有大约3%-4%能耗花在冷却上,而顶点需要10%。


多年来,能源效率一直是打造更快超级计算机的瓶颈。“我们早在2012年就能造百亿亿次级别的计算机,但运转成本太贵了。”Messer说,“我们需要增加一两个数量级的能量才能为它供电。”


橡树岭实验室的夜幕降临时,“前沿”那一层的走廊上是空的,只有最低人数的工作人员。在超级计算机的控制室里,Conner Cunningham的工作是于夜间照顾“前沿”。他的工作是从晚7点到早7点确保超级计算机顺畅执行全球各地研究者的任务。他通过十几台显示器盯着“前沿”,上面显示出了全球的数据安全威胁和大楼安全摄像头的录像。角落里的一台电视用静音模式显示着本地的天气,警告他接下来可能会出现的任何可能截断电力供应的暴风雨。


但大多数的晚上都很安静,Cunningham可以在工作桌上自学一个在线计算机科学学位。他会进行几次巡逻,检查建筑内有没有任何意外情况,此外他的工作基本是被动的。


“这有点像消防员。”他说,“有事就要有人盯着。”他买了四个墨西哥卷和一些百事可乐来撑过夜班。他今晚不会睡觉——“前沿”也不会。

参考文献:

1. Taylor, M. A. et al. SC ’23: Proc. Int. Conf. High Perform. Comput. Netw. Storage Anal. https://doi.org/10.1145/3581784.3627044 (2023).

2. Caddy, R. V. & Schneider, E. E. Astrophys. J. 970 , 44 (2024).

3. Schneider, E. E. & Mao, S. A. Astrophys. J. 966 , 37 (2024).

4. Ahmed, N., Wahed, M. & Thompson, N. C. Science 379 , 884–886 (2023).

5. Singh, S., Singhania, P., Ranjan, A. K., Sating, Z. & Bhatele, A. Preprint at arXiv https://doi.org/10.48550/arXiv.2305.13525 (2023).


原文以 A day in the life of the world’s fastest supercomputer 标题发表在2024年9月4日《自然》的新闻特写版块上

© nature

Doi: 10.1038/d41586-024-02832-5

点击 阅读原文 查看英文原文







请到「今天看啥」查看全文