专栏名称: AI报道
大数据时代,做数据的玩家!
目录
相关文章推荐
软件定义世界(SDX)  ·  数据资产管理实践指南7.0版解读和全文 ·  3 天前  
数据派THU  ·  报名 | ... ·  6 天前  
大数据文摘  ·  锤爆Sora,尺度最大,谷歌发布最强视频模型 ... ·  6 天前  
51好读  ›  专栏  ›  AI报道

亚马逊说卡车运数据比光纤快!是真的吗?

AI报道  · 公众号  · 大数据  · 2017-08-21 17:57

正文

来自:中关村在线,作者:鲁畅

链接:http://server.zol.com.cn/650/6505562.html

部分技术内容来自AWS知乎

版权归原作者,如有侵权,烦请联系后台删除。


1、光纤、快递和重卡:一场速度的较量

高速宽带已经非常快,不差钱的亚马逊买带宽不就行了,造卡车运数据干嘛用?


抱着精明的企业家一定不会做赔本生意的想法,笔者收集的了一些数据,也做了一些测算。发现,这个世界真的有太多我们意想不到的东西。


背景介绍:在拉斯维加斯re:invent年度技术大会上, 亚马逊云计算(以下称AWS)将一辆45英尺长的卡车开到了舞台上。这是一辆专门为EB级数据传输而定制的AWS SnowMobile数据传输车。


首先是数据。还记得买第一个4GB优盘时那个高兴劲儿,觉得它能装下整个世界。直到后来才发现,人家某公司一张图片就16GB,我这U盘,能装四分之一……那么,现在数据量究竟有多大?简单来说,就是你想象不到的那么大!

在进入信息时代后,人类每天浏览的数据量不断增加,从人联网到物联网,数据呈指数级上升,进而产生的数据量空前庞大。据统计,每位互联网用户日平均流量约1.5GB,而在物联网时代,一辆无人驾驶汽车每天产生4TB的数据量,一家智能制造工厂每天将产生1PB的数据量,而一家云视频供应商每日数量可达750PB。

如果你还没有概念,笔者可以跟大家打个比方:1EB=1,024PB=1,048,576TB=1,073,741,824GB≈2.5 亿张 DVD≈ 1万亿册 400 页厚的书……


科普TIME:1EB=1,024PB=1,048,576TB=1,073,741,824GB。即,10亿GB=1EB;7亿5千万GB=750PB。


除了数据量之庞大超出想象外,第二个没想到的是:现在的网速太慢了,我们还在互联网初期…


21世纪的光纤能否打败20世纪的卡车?


虽然如今移动网络从2G过渡到4G,家庭网络从几兆发展到几十兆甚至百兆,企业专线网速甚至会更快,但是在PB和EB级数据面前,光纤还是“龟速”。


跟大家讲一个真实的故事。有一天,一个大学同学让我给她传外教萨沙的资料。因为有很多视频,所以两年的资料将近100GB,我们用网络传输了不少于5次,都没有成功,后来我借了一块移动硬盘,腿儿着给她送了过去……没错,相比光纤,还是跑步来的靠谱。

而接下来的测算,将告诉我们,相比腿儿着来,快递小哥更专业,相比快递小哥, 亚马逊造卡车运数据还真是个聪明的选择。

2、PK光纤?快递小哥笑了


结果:如果在100M带宽的网速下,当数据超过一定的大小时,通过网络传输往往不如直接快递硬盘来的方便。例如,当你数据大于35GB的时候,在北京市内通过快递的则较快速,如果大于100G的数据,那么只要是在国内,快递都要比网络传输的要快。


快递小哥,你赢了


论证:以北京联通为例,百兆光纤家庭用户由于受到上行速率限制,100兆光纤下行速率100Mbps,上行速率4Mbps。即点对点理论传输数值为0.5m/s,如果加上线路上的一些损耗,平均0.4m/s的传输速度差不多。以一块1TB的普通硬盘为例,一块硬盘相当于1024M×1024G=1048576M数据。如果一块硬盘通过网络传输那么就需要2621440秒,换算成分钟则为43690分钟≈728小时≈30.3天的时间。



联通家庭宽带上行限制(图片来自联通官网)


30.3天的时间才能够传送一块普通硬盘的内容,这还是在网络保持通畅,不发生任何意外的情况下。


如果你是在北京市里,即使你是从南三环到北五环,相信一天的时间,快递小哥们也能够将这块装有1TB数据的硬盘放在你的面前。而如果采用网络传输一天(24小时)也大约只能够传输33.75GB左右的数据。即使你不在北京市里,哪怕在遥远的广州,如今的快递行业运输的非常快,两天或三天的时间也是足够了。


速度对比


从上表中我们可以看到规律,随着传输的数据越来越大,通过网络传输的时间越来越多,而快递运输的时间则甚至没有增加。如此,我们可以推测出一个结论:越大的数据越应该脱离网络进行物理搬运。所以,是不是当遇到1EB的数据传输,重卡应该会超越快递?

3、用卡车运数据 我们是认真的


结论:前面的论证说明,当数据达到TB级时,快递运输明显优于网络传输;但是考虑到暴力快递等因素,快递运输硬盘存在一些安全隐患。尤其在面对EB量级的数据时,造辆卡车运数据,真心不是开玩笑。也就是说,在当前的技术下,1EB的数据通过网络传输需要27年才能完成,而十辆45英尺长(约14米)的重卡集装箱,每辆100PB装满需要12天,1EB数据可以在6个月内完成传输。

论证:不同于家庭网络,大量级的数据往往出现在企业之中,体现在物与物的链接中。所以我们参考10Gbps网速的专网来进行测算,10Gbps专网的理论传输数值约为1.25GBps。1EB≈1,073,741,824GB,所以传输1EB数据的时间约为:1,073,741,824GB/1.25GBps≈858,993,459秒≈14,316,557分≈238,609小时≈9,942天≈27年。

1EB的数据在企业专网中,需要27年才能完成传输,这也是在网络保持通畅,不发生任何意外的情况下。


AWS Snowmobile


为了解决这个问题,AWS提出了一种开挂的方法:网速不够,卡车来凑!当然这不是普通的卡车,为了确保数据安全性AWS研发了一种45英尺长的集装箱重卡AWS Snowmobile完成数据传输。

据了解,AWS Snowmobile是一种用于将海量数据移动到AWS中的EB级数据传输服务。一个45英尺长、9.6英尺高、8英尺宽海运集装箱,由一台半挂卡车牵引,一次可以传输高达100PB的数据。Snowmobile可以将海量数据轻松移动到云中,可以实现视频库、图片存储库,甚至整个数据中心的迁移。



AWS re:Invent 2016,把卡车开上舞台


另外,为了保证数据安全,AWS不但使用了256位加密的密钥(密钥由AWS密钥管理服务管理),提供温控和防水技术,还为Snowmobile配备了专业安保人员和安全车辆组成的专业护送车队,并配备全天候视频监控、警报监控和GPS追踪。防护等级丝毫不逊于任何其他押运模式,果然,在信息时代,数据才是未来石油。

4、EB级数据传输 客户:我很满意


我们现在可以得出结论,GB级数据可以考虑通过网络传输,TB级数据需要快递运输,而如果你有PB或者EB级数据,那还是选择集装箱重卡吧!毕竟,有时候太复杂的东西,反而需要用最简单的方法来解决才最有效。

但可能有人提出质疑:我们常见的社交数据、视频数据都是有“保质期”的,一般过了三个月后,复用率很低,所以企业都会直接做冷处理。那么,PB、EB级数据传输,真的有必要吗?

答案是肯定的。而且亚马逊这个45英尺的大卡车,在今年6月就已经完成了一次100PB的数据传输实战。


DigitalGlobe公司磁带库


这家公司叫做DigitalGlobe,从2001年发射第一颗卫星QuickBird起,DigitalGlobe就负责24*7*365的收集地球的图像,随着新的卫星不断加入和图像分辨率的不断提升,DigitalGlobe手机的图片所占用的存储空间越来越大。例如WorldView-3卫星收集的一张图像可能就达到30GB。在十几年的积累后,如今这家公司的数据存储量已经高达100PB,同时还在以每年10PB的速度不断增长。

毫无疑问,这些数据对科学研究有着重要价值,也是人文、历史、科学、生物、工业等学科的资料和依据。但是我们都知道,数据的存储与维护的费用十分高昂,随着云计算技术不断成熟,这家公司开始将数据搬到了公有云上,而此时,PB级的数据传输问题就成为了瓶颈:数据需要在能够快速调取的情况下(热状态下)实现快速迁移。



Snowmobile数据传输


于是,亚马逊将一台Snowmobile停在了DigitalGlobe科罗拉多州威斯敏斯特的总部,连接上一台交换机和多条40Gb/s速率的网络,以1 Tb/s的速率传输数据,实现高速数据交换能力,在这种环境下,每辆Snowmobile的数据传输需要12.13天。终于,DigitalGlobe在今年第一季度成功迁移了5400万个文件。

对此,DigitalGlobe公司基础设施与运营副总裁Jay Littlepage评价说:“利用Snowmobile强大的数据传输能力,我们得以越来越快地将影像归档导入至AWS端,这使得我们的客户及合作伙伴能够快速获取海量数据集……Snowmobile已经成为真正的游戏规则改变者!”

如此看来,100PB的文件传输已经有了成功案例,而且Snowmobile的实际应用者还说“这次数据传输已经使出洪荒之力了,我很满意!”

5、败北:光纤赶不上数据增长速度



进入信息时代,我们常说“数据量呈指数级增长”,此言非虚。根据最新的研究显示,到2022年,全球摄像头总量将达到44万亿部。在五年之内,一部智能手机可以运行13个摄像头,能够拍摄360度3D视频,创建复杂的增强现实图像……在这些改变的背后,无论是数据数量,还是单个数据的大小都将暴增。


速度对比


过去一部MP4电影几百MB,如今一部4K电影需要几百GB,那未来是不是一部全息电影需要几百TB的空间?

也就是说,尽管带宽级别在不断增加,但是,数据量级也在同步增加,光纤追不上数据增长的速度,用光纤来点对点传输PB或EB级的数据无异于愚公移山,未来物理搬运数据还会是必须。


限时干货下载

Step 1:长按下方二维码,添加微信公众号“数据玩家「fbigdata」”

Step 2:回复【2】免费获取完整数据分析资料「包括SPSS\SAS\SQL\EXCEL\Project!」