专栏名称: 云头条
云计算领域科技媒体:传播观点,传播价值,连接商业与技术;Web:www.yuntoutiao.com ,欢迎互动~~~
目录
相关文章推荐
36氪  ·  杨植麟回应不了一切 ·  昨天  
新浪科技  ·  【#互联网大厂集中启动反腐# ... ·  4 天前  
51好读  ›  专栏  ›  云头条

创公共云记录:MIT数学家启动了220000个核心的计算集群

云头条  · 公众号  · 科技媒体  · 2017-05-06 22:28

正文

谷歌周四宣布,麻省理工学院(MIT)的数学教授、计算数论家安德鲁·V·萨瑟兰(Andrew V. Sutherland)因一项最庞大的谷歌计算引擎(GCE)任务而创下了记录。萨瑟兰使用抢占式虚拟机实例,在220000个GCE核心上运行了庞大的数学工作负载。据谷歌的亚历克斯·巴雷特(Alex Barrett)和迈克尔·巴西尔延(Michael Basilyan)声称,这是迄今为止在公共云上运行的已知最庞大的高性能计算(HPC)集群。


麻省理工学院的首席研究科学家安德鲁·萨瑟兰(Andrew Sutherland),拍摄于马萨诸塞州坎布里奇的麻省理工学院校园。


巴雷特和巴西尔延在谷歌云平台的官方博客(https://cloudplatform.googleblog.com/2017/04/220000-cores-and-counting-MIT-math-professor-breaks-record-for-largest-ever-Compute-Engine-job.html)上写道,萨瑟兰使用谷歌的云来探究将佐藤-泰特猜想(Sato-Tate Conjecture)以及贝赫和斯维讷通-戴尔猜想(Birch and Swinnerton-Dyer Conjecture)推广到亏格更高的曲线这项工作。他们俩解释道:“在他最近的一次运行中,他探究了1017条亏格是3的超椭圆曲线,竭力找到可以轻松计算L函数的曲线,这些曲线还拥有可能令人关注的佐藤-泰特分布。这得出了大约70000条需要关注的曲线,每一条曲线最终会在L函数和模块化表单数据库(LMFDB)中有各自的条目。”


萨瑟兰将寻找亏格是3的合适曲线这个过程比作好比“在15个维度的干草堆中找一枚针”,任务之艰巨可想而知。这是一项高度计算密集型的研究,需要评估一个拥有5000万项的多项式,涉及15个变量。


在改用公共云平台之前,萨瑟兰在64个核心的本地机器上进行了研究,但是运行起来需要好几个月的时间。使用麻省理工学院的集群是另一个选择,不过有时存在访问和软件方面的限制。谷歌博客作者特别指出,借助谷歌计算引擎,萨瑟兰可以使用自己青睐的操作系统、软件库和应用程序,构建一个集群。


据谷歌声称,萨瑟兰使用的抢占式虚拟机是“功能完备的实例,价格比常规的物理机最多便宜80%,但是会被计算引擎中断。”


由于这种计算是平行计算,中断的影响很有限,工作负载还可以跨谷歌云区域(Google Cloud Regions)来获取可用的实例。谷歌声称,在任何一小时内,大约有2%至3%的作业被中断,可自动重启。


协调实例通过结合云存储(Cloud Storage)和数据存储(Datastore)来完成,两者可以根据来自Python客户端API的请求,将任务分配给实例。博客作者写道:“实例定期检查它们在本地磁盘上的进度(如果被抢占,它们可以从本地磁盘来恢复),并将最终输出数据存储在Cloud Storage存储桶中,一旦作业处理完毕,数据可能会接受进一步的后期处理。”220000个核心的集群的价格没有透露。


萨瑟兰已经计划使用400000个核心来运行更庞大的任务,他特别指出,当你“可以在几小时而不是几个月内提出问题并得到答案时,就会提出不同的问题。”


这些年来,HPC云专业公司Cycle Computing运行过另外几个异常庞大的云系统。2013年年底,Cycle为药物研究企业Schrödinger和南加州大学启动了一个156000个核心的AWS集群,以便支持量子化学应用的运行。2012年,Cycle Computing曾在AWS上构建了一个50000个核心的虚拟超级计算机,


为Schrödinger寻找用于癌症研究的新型药物化合物提供方便。2014年11月,Cycle的客户:日立环球存储科技(HGST)在8小时内运行了一项100万次模拟的任务,帮助确定最佳的先进硬盘驱动器磁头设计。峰值时期,该集群用到了70908个Ivy Bridge核心,最大理论性能达到每秒729万亿次浮点运算(729 teraflops)。


Cycle公司还利用了谷歌计算引擎(GCE)。2015年,Cycle使用抢占式虚拟机实例,为博德研究所(Broad Institute)运行了50000个核心的癌症基因分析工作负载。


亚马逊网络服务(AWS)对跻身于“全球500强”榜单的几个自行构建的集群进行了基准测试。最近由26496个核心组成的英特尔至强集群在2013年11月跻身该榜,以484 Linpack teraflops的成绩排在第64位。截至2016年11月,该集群排在第334位。


相关阅读:

中高端IT圈人群,欢迎加入!

赏金制:欢迎来爆料!长期有效!