就在大家阅读标题的这一小段时间当中,美国航空航天局可能已经从目前处于活跃状态的大约 100 项任务当中收集到高达 1.73 GB 数据。
美国航空航天局(简称 NASA)正持续推进相关工作,而数据的收集速度亦以指数方式不断增长。也正因为如此,对这部分数据进行管理成为其面临的一项艰巨任务。然而,NASA 收集到的数据亦非常宝贵,并在相关科学研究工作当中发挥着巨大作用。NASA 方面正在努力简化这些数据的使用流程,将其融入日常工作以及对宇宙变化趋势的预测当中,同时希望借此通过创新与创造性方式为全人类谋求福祉。
在公布于 2012 年的“开放政府计划(Open Government Plan)”2.0 版本当中,NASA 曾经讨论但并未深入剖析“大数据”在其工作当中的重要价值——但他们同时承认,大数据还拥有极为广泛的探索潜力。
相信大家都很清楚大数据的定义与作用,因此这里就不再对具体概念加以赘述。下面,让我们直奔今天的探讨主题。
我们可能普遍认为 NASA 的大数据挑战即是与地球相关的挑战——但实际情况并非如此刻板。大部分大数据集由一个重要的元数据进行定义,但这些大数据集亦给当前及未来的数据管理实践带来严峻挑战。一般来讲,NASA 方面的主要任务在于从太空中的航天器处持续获取信息,而且其生成速度要远高于当前的数据管理、存储与分析速度。NASA 主要拥有两种航天器类型,其一为深空飞船,其二则为近地轨道卫星。
深空飞船的作用在于以每秒 MB 量级向地球发回数据,而近地卫星尽管在运转机制上与深空飞船类似,但传输的数据量却为每秒 GB 级别。NASA 利用激光等通信技术将大规模数据的下载能力加速至上千倍。但就目前而言,NASA 无法处理这么多数据,而其显然有必要为此做好准备。事实上,当下 NASA 设定的目标为在一天之内处理 24 TB 数据。如果我们将其整体数据量视为单一任务,那么其单日数据处理量将达到国会图书馆的 2.4 倍。
NASA 专注于从大量数据当中收集最为重要的信息,而非存储全部数据——这是因为从航天器处将数据转移至 NASA 数据中心将带来极为高昂的成本。而在数据中心内数据量的积累过程中,NASA 亦面临着对这批数据进行存储、管理、可视化以及分析的一系列后续任务。为了对 NASA 需要处理的任务规模拥有初步了解,我们这里分享一项实例:截至 2030 年底,全球气候变化数据库的规模预计会增加至 230 PB。更确切地进行比对,美国一年之内邮政服务所发送的全部信件总数据量仅相当于 5 PB。
除了航天器之外,NASA 还需要处理来自在线平台、低成本传感器以及移动设备的数据。2012 年 10 月,《哈弗商业评论》杂志发表的一篇文章将这项任务描述为“我们每个人都相当于一台会走动的数据生成器”。与其它众多机构一样,NASA 的大数据挑战似乎同样极难得到解决。
而且可以想象,数据量的增长并非 NASA 面临的惟一挑战。随着数据规模的提升,与之相关的转移、索引以及搜索等各类挑战都在呈指数级增长。除此之外,算法与设备的复杂性亦在持续走高,技术更新速度加快且预算水平趋于下降,这一切都在 NASA 的大数据处理工作当中产生了重大影响。幸运的是,目前美国政府正在高度关注大数据挑战。 2012 年 3 月,奥巴马政府公布了“大数据研究与开发计划”,其重点在于利用所需技术与工具加强从大量数字资料当中获取、组织及访问信息的能力。这项计划的目标在于转变政府对大数据的利用方式,并借此令数据在生物医学与环境研究、教育、国家安全乃至科学发现等领域中迸发更大潜力。
NASA 正考虑构建新的处理方案,旨在对最高优先级数据进行可视化处理、分析与解释。而在政府内部,现实状况亦要求其以自下而上与自上而下两种方式对大数据进行有效处理。NASA 立足于“任务目标(包括技术、科学、人类空间探索、航空与作战)”角度,通过“开放政府计划”2.0 版本发现了多种大数据的处理方案与实际举措。
在大数据的归档、存储、管理、可视化、分析以及实际使用等层面,NASA 带来了堪称全球领先的以下各项处理实例:
任务数据处理与控制系统(Mission Data Processing and Control System,简称 MDPCS)展示了 NASA 处理及管理大规模数据的具体方法。最近,火星探测器好奇号即使用了这套方案。MDPCS 与深空框架相结合,旨在确保 NASA 的好奇号火星侦察飞行器提供现场数据,并对这些原始数据进行实时处理。在此之前,整个过程需要数小时甚至数天才能完成计算。另外,飞行器操作团队还在任务执行当中利用到了由该系统构建的定制化数据可视化方案(Custom Data Visualizations)。
NASA 的戈达德空间研究研究所以及全球建模与同化办公室主要使用 NASA 气候模拟中心(简称 NCCS),后者专门负责为 NASA 提供大数据存储方案。NCCS 的主要着眼点在于天气与气候数据,其目前的数据总量为 32 PB,占用的总存储空间则达到 37 PB。NCCS 还使用一套高级可视化工具,即一块 17 英尺 x16 英尺的可视化墙。该工具提供高分辨率界面,允许科学家们用以显示 NCCS 数据的相关动画内容、图像与视频。
大气科学数据中心(简称 ASDC)的重点领域为地球科学与行星数据系统(简称 PDS),主要关注行星科学领域。ASDC 的运作方式直观展示了 NASA 对于大数据的归档与处理。ASDC 位于 NASA 兰利研究中心,负责 NASA 地球科学数据的分发、归档与处理。ASDC 提供的大气数据对于了解全球气候变化以及人类活动对气候变化之影响起着至关重要的作用,且目前其已经收集到多年气候数据。PDS 将科学数据纳入 NASA 实验室建立的行星测量与天文观测网站之内,其目前提供超过 100 TB 太空图像、模型、遥测以及过去 30 年间与行星任务相关的各类信息。
NASA 的 Pleiades 超级计算机提供强大的分析能力,且支持从太空气候、太阳耀斑到空间全功能车辆设计的各项任务。Pleiades 近期被用于处理 NASA 自开普勒航天器处收集到的大量星形数据。开普勒航天器负责在银河系当中搜寻与地球大小相近的行星。美国本土有约 1200 名用户依赖这套系统处理复杂而庞大的计算任务。另外,Pleiades 亦被开发者们用于进行 Bolshoi 宇宙学模拟——此项目对过去数十亿年来各星系乃至全宇宙的大规模结构演变进行分析。
NASA Earth Exchange 虚拟实验室(简称 NEX)利用协作技术与社交网络将数据可视化、数据系统、模型与算法、超级计算机以及超大规模在线数据加以整合。在 NEX 建立之前,科学家们投入了大量时间与精力以构建高端计算方法,这直接导致其无法集中精神处理真正的科学问题。现在,科学家们能够利用超级计算机对地球科学数据集进行可视化处理,同时共享并运行建模算法并立足现有或者新型项目开展协作。最近,NEX 环境被美国的一支研究团队用于对大气观测影像进行拼接,旨在以 30 米为单位分辨率观测全球植被密度。这一总像素数量达 340 亿个的综合素材在 Pleiades 超级计算机上只花了数小时即完成处理,使得团队能够轻松对各类新型方法与算法进行实验。NASA 还为地球科学界提供了大量知识共享与协作平台,这一涵盖了工作流管理、地球系统建模、NASA 遥感数据源以及超级计算机的综合体得以为研究人员提供一套可直接使用的整体解决方案。
火星科学实验室的任务执行结果证明,NASA 当前采取的大数据现代化方法确实行之有效,且其中大量利用到商业化云存储解决方案及云计算服务。NASA 在不到 4 个月之内即将网站迁移至 Amazon Web Services 及内容管理系统当中。火星科学实验室过去曾高度依赖于关键性任务应用程序,但这些应用分布在约 10 座数据中心之内,且任何故障都有可能影响其面向公众、科学家以及操作人员的约每秒 150 Gb 数据流交付能力。现在,该团队开发的解决方案能够从好奇号处直接下载遥测数据及原始图像的解决方案。
来自火星的全部图像皆以数据流的形式面向云端进行交付、上传、存储与处理。凭借着具备高可用性与可扩展性的数据库,相关数据进行分类并通过一个 Restful 接口发布给应用程序及用户。如此一来,火星网站的内容管理者即可利用强大的实时图像提供相关信息。这套方案帮助 NASA 在一夜之间交付高达 120 TB 的动态内容与 30 TB 的静态内容,从而充分满足其网站每分钟超过 800 万次的点击请求。另外,该团队亦能够借此充分发挥 JPL Nebula 与 JPL Galaxy 超级计算机的威能。这两台超级计算机能够在 24 小时之内,以每项任务 20 GB 速率处理约 200 项蒙特卡洛模拟任务。
将大数据技术纳入 NASA 不仅给美国政府带来诸多助益,同时亦给普通民众带来切实影响。作为 NASA 将大数据技术领域的专长应用于现实生活的绝佳案例,正在于航空安全领域。NASA 从飞机当中收集数据以发现各类能够帮助商业航空公司改进现有维护流程的安全隐患,同时成功避免各类设备故障。利用先进的算法,NASA 得以从大量非结构化数据当中提取相关信息,用于预见并避免安全问题。利用被称为多内核异常检测(简称 MKAD)的开源算法,NASA 能够在两种持续性数据网络或者数据流之间找到共通点,而后利用单一框架检测其内容以建立模式认知,从而自动检测其与之前曾经出现的飞行故障事件之间的关联。
从实时观测全球气候变化到对太阳等离子体喷射的研究,到大多数大型工程设计与现代化任务处理的具体方式,NASA 已经当之无愧地成为大数据应用领域的领导者。在 NASA,科学家们正在努力利用创新方法以控制不断变化的环境,进而帮助政府应对由此带来的众多挑战以及 NASA 自身开展业务的具体方式。NASA 在大数据领域的探索方面无疑拥有几乎无限的发展机遇。
开放政府计划当中对 NASA 在大数据探索领域的具体举措作出了概述。目前 NASA 已经建立起 data.nasa.gov 网站作为其数据参考门户,而我们亦可将其视为 NASA 所提供的惟一且极为卓越的简单数据目录。NASA 也在利用这些能力为用户提供更易于使用的高质量工具与相关数据应用途径。
NASA 的科学家们设定了一项目标,即“为 NASA 的大数据发展机遇创造更多协作空间,同时加强与其它组织的合作关系,”旨在借此鼓励普通民众使用这些原始数据集并支持相关应用的构建以及 NASA 的自身使命。NASA 亦协同了美国能源部科学与国家科学基金会办公室在“TopCoder”平台上举办了“大数据挑战(Big Data Challenge)”大赛。各参赛选手需要开发相关移动应用程序,旨在从政府信息部门所掌握的离散数据当中发现新价值,而后思考如何走出个别孤岛的限制将其纳入跨机构通用型解决方案进行共享。这是一种与 NASA 之间的全新合作机遇与发展方向,亦有助于帮助政府建立起实现未来成功的新型思考与独特进步观念。
立足于此,我们也得以一窥 NASA 在有效处理大数据并利用突破性工作充分发挥其作用的具体考量。可以肯定地讲,如果能够有效管理大数据,我们即可更多地运用这些数据。另外,凭借着在 NASA 这类重要组织机构内的广泛普及,大数据也迎来了光明的发展前景。目前具备大数据培训资质的人才数量日益增多,而世界各地的众多顶级机构也在积极招纳此类人才。因此,获取大数据领域的知识储备与认证资质亦有助于在世界各地知名机构内获得理想的就业机会。
原文地址:http://highscalability.com/blog/2017/7/5/what-is-nasa-doing-with-big-data-check-this-out.html
近日,由 InfoQ 参与承办的以“在一起,梦飞扬”为主题的 2017 华为开发者大赛正式开赛,大赛设置百万现金奖励,面向参赛者征集采用华为 11 个领域开放能力的优秀作品,包括:云计算、大数据、物联网、企业云通信、eLTE、视频、CloudCaaS 、移动、开放工场、运营商运营管理、IES SmallCell。如果你是华为的合作伙伴,或者对华为合作伙伴生态感兴趣,赶紧关注下方二维码注册参赛,InfoQ 将提供全程赛事指导,提交作品更有开发者礼包相赠。