TechTarget 原创
很多企业正在使用Hadoop和其他大数据技术,打破现有的业务模式,寻求新的业务策略、研发新的产品。对于一些公司来说,大数据系统不仅仅是新型的数据处理和分析应用平台,它们还是全新商业策略背后的驱动力。
iPass公司遇到了大数据方面的挑战,
该公司过去的商业模式是对客户的WIFI连接付费,现在他们想要利用大数据环境,实现战略转变
,将主要营收模式转换到付费的企业用户管理和移动连接优化工具层面。该公司在2015年末推出了iPass SmartConnect软件,其功能包括一系列识别WIFI接入点的算法,对热点性能进行排名等,这样移动用户就可以连接到最快、最可靠的热点。这意味着iPass会给用户提供了一个静态的热点列表。
(图片来源于网络)
iPass的大数据和分析主管Tomasz Magdanski说,如果没有基于Spark处理引擎的基础数据管理平台,这显然是不可能的。“我们确实需要大数据架构,它不可或缺 ,”他解释道,“如果没有这些大数据架构,我们没有办法实时处理这些数据,进行热点排名更是无从谈起。”
对大数据架构的部署并不是一帆风顺的。这家公司最初使用的是一个本地部署的Hadoop和Spark集群,但Magdanski说,他们遇到了系统可伸缩性和系统维护的问题。SmartConnect是基于云技术的,可伸缩性和维护问题阻碍SmartConnect产品的发布。为了让事情回归正轨,iPass于2016年中旬迁移到了一个在Amazon Web Service(AWS)云中运行的Spark集群。据Magdanski称,这次迁移,最终保证了SmartConnect的组件能够在今年年初开始投入生产。
一个Spark集群能够处理世界各地的无线热点数据,在数据上进行提取、转换和加载任务,目前平均每天有2500到3000万的记录。
Magdanski说,各种SmartConnect算法,包括分析热点地区的访问速度和服务质量的算法,运行在另外的小集群上,我们将处理工作分离出来,以避免依赖或冲突。处理后的数据存储在Amazon Simple Storage Service(S3)中,前端有一个开源Cassandra数据库,以向网络管理员提供相关信息。
SmartConnect并没有立刻宣传iPass的业务。事实上,该公司的报告称,2017年第二季度营收同比下降了18%,部分原因在于新软件预计部署的推迟。但Magdanski指出,现在软件已经开始了部分预售。此外,他的团队正在开发由大数据系统支持的数据产品,用于向移动网络运营商、广告平台供应商,酒店和其他场所的所有者出售无线访问点数据。
RiskIQ 公司也利用大数据架构来拓宽业务范围。RiskIQ公司首席数据科学家Adam Hunt表示,当他在2014年初加入这家位于旧金山的公司时,其主要业务是在网络上进行网页爬取,寻找存在攻击漏洞的网站。但在一年之后,该公司构建了一个数据仓库并搭建了相应的分析环境,在现有的Hadoop集群之上部署了新的安全产品,它能够利用爬虫收集到的所有数据。
Hunter说:“我们能够利用被动数据的程度有了很大的提高,它真的改变了每个人对我们数据处理能力的看法,同时也改变了我们的业务方向。”
MapR Technologies在2012年发布一个Hadoop 发行版,RiskIQ公司已经部署了这个集群。Hunter说,该系统最初只是用来存储原始数据的文件,这些原始数据可以传送给那些想要自己完成分析的客户。现在,Hadoop平台支撑着一套分析应用程序,旨在帮助企业清点和监控他们的网站、移动应用程序和其他联网资产;识别外部安全威胁;调查并回应攻击。
(图片来源于网络)
RiskIQ公司会爬取多达2000万的网页,并将高达25TB的数据传输到集群中,而集群则被安置在一个托管工具中。为了节省存储空间,Hunter说,公司将原始数据转换成Apache Parquet文件,这个文件的大小是原始文件的十分之一。即便如此,该集群仍需要在MapR的专有文件系统和HBase数据库中存储约500TB的数据;一个运行Solr搜索服务器的单独集群为实时作业提供3TB的数据索引。此外,在S3中还单存储了2PB的旧数据集。
Gartner分析师Merv Adrian表示,
大型数据系统的部署常常会因其复杂性而停滞不前,并指出2017年的调查结果显示,只有17%的Hadoop项目已经投入使用。
2017 Pacific Northwest BI & Analytics Summit峰会上的一场演讲中,Adrian说道,企业IT团队对Hadoop和数据湖泊的需求正在变得越来越具体。他把构建一个大的数据架构比作完成一个拼图游戏,“但问题在于,你并不知道应该拼成什么样子。”
在2015年开始部署Hadoop环境时,TMW Systems公司感到有些痛苦,因为团队缺乏相应的大数据技能。“我们必须从头开始,”Timothy Leonard说,他被邀请担任TMW公司负责运营和技术执行副总裁。“当我来到这里的时候,人们对大数据并不了解。早期,我把大部分时间都花在给人们讲授大数据概念上。
TMW是一家为货车运输公司提供运输管理软件的供应商,它在2016年初开始使用Hadoop平台,以支持一套新的分析应用程序,为客户提供相应的服务。Leonard说,在此之前,运输公司只能使用他们自己的数据进行分析,现在他们可以看到关于价格、燃料使用和其他参数的聚合行业数据。
(图片来源于网络)
使用TMW软件的运输公司,其运营数据来自于Mayfield Heights, Ohio,那里有一个ERP系统,最终这些数据被传送到大数据架构中,该架构基于Hadoop的Hortonworks发行版,它包括两部分,一部分需要本地安装,另一部分则部署在微软的Azure云服务中。Leonard说,这些数据目前总计达数百TB,存储在一组HBase表中,每和表有多达9000列。他解释说,如此庞大的表数据,使分析应用程序的用户能够询问他们想要的任何问题,多个表也可以连接在一起。
网络安全初创公司ProtectWise在一组大数据系统的帮助下建立了自己的业务,该系统目前每天从企业网络中收集约100亿份运营数据记录。该数据被用于安全威胁的实时和历史分析,这家位于Denver的公司承诺不会错过或丢失任何记录,该承诺被写入其客户合同中。
ProtectWise的联合创始人和CTO Gene Stevens说,“24小时无间断的捕捉、处理和分析所有的网络数据,没有这种架构,几乎是不可能的。那样我们可能会一直原地踏步。”
基于云技术的大数据架构围绕着Cassandra的DataStax Enterprise(DSE)实现展开,它为实时分析程序提供了可能,这些程序在时刻检测着网络攻击。NoSQL数据库还存储了指向S3中保存的历史数据的索引,保存期限通常为一年。ProtectWise使用Spark的结构化流媒体模块分析过往的安全事件和攻击指示器的数据,利用DSE索引查找相关数据集。此外,Solr与DSE联系在一起,以供那些自行构建分析的客户使用。
大数据应用程序中最具挑战性的部分可能不是针对大量数据集运行分析算法。 相反,首先摄取数据可能是一件更加简单的任务。
在TMW Systems的案例中,运输管理软件供应商将结构化和非结构化数据整合到Hadoop集群中,包括大量传感器数据。TMW的运营和技术执行副总裁Timothy Leonard补充道,“其他类型的数据平台或许可以处理分析,但除此之外,我找不到其他的方法来完成这项工作。”
移动互联公司iPass的大数据和分析主管Tomasz Magdanski说,为了降低出现性能问题的风险,大数据团队应该在部署方面好好考虑,特别是在提取、转换和加载数据的时候。部署时应考虑以规模为前提。
在ProtectWise的联合创始人、首席技术官Gene Stevens的支持下,将越来越多的数据引入网络安全供应商的大数据架构,且不存在任何错误,是当务之急。Stevens解释说:“我们知道我们必须要变得经验丰富,我们不能在摄取数据时遇到问题。”
Stevens表示,在最高运行级别上,DSE系统每秒处理约600万次事务。ProtectWise还使用了一个用Scala编写的本地处理引擎,它使用Akka工具包来提供高吞吐率。他补充说,该系统每天处理10亿笔交易。