专栏名称: TechTarget
全球领先的企业级IT网络媒体!
目录
相关文章推荐
新浪科技  ·  【#小米集团市值突破万亿人民币#】#小米股价 ... ·  21 小时前  
新浪科技  ·  【#哪吒2盲盒发货已排到6月# ... ·  昨天  
新浪科技  ·  【#小米SU7Ultra实车到店##小米SU ... ·  2 天前  
新浪科技  ·  【#华为2024年销售收入超8600亿#】2 ... ·  2 天前  
51好读  ›  专栏  ›  TechTarget

让更多用户参与分析过程?满足数据需求新玩法

TechTarget  · 公众号  · 科技媒体  · 2017-12-14 10:37

正文

TechTarget 原创

通过使用Spark进行大数据分析,Visa全资附属公司CardinalCommerce在整个组织内加大了对数据的需求,并让更多的内部用户参与分析过程。


关于大数据分析,用户的需求似乎总是“永无止境”。

这是CardinalCommerce在增强大数据分析能力的过程中得到的教训之一。该公司位于俄亥俄州,在2017年被Visa收购。现在为在线商户提供服务,以确定使用其他支付平台(如PayPal)的购买者的身份。毋庸置疑,在线金融交易产生大量的数据,要从这些资源中获得更多的见解,这既是一项首要任务,也是一项核心挑战。


(图片来源于网络)


CardinalCommerce数据系统经理Christopher Baird表示:“我们每天都进行大量的交易。我们收集了指标数据,记录数据等等,我们必须把它带回到报告环境。”

几年前,随着Apache Spark变得越来越重要,Baird的团队成员在办公场所建立了一个小型集群,运行Spark进行基本数据处理任务,例如从CardinalCommerce的网络支付处理平台返回数据以完成报告。 他们主要使用Microsoft SQL Server Reporting Services软件来跟踪XML消息格式中的数据质量问题,平台使用该格式对在线购物者进行身份验证。他们得到了不错的结果,但问题是集群太小,无法扩展到更大的用例。


(图片来源于网络)


Baird说:“显而易见,我们掌握的数据都不够用。”


云中的Spark提高了可扩展性


因此,CardinalCommerce决定将Spark工作负载转移到云中的亚马逊弹性MapReduce(EMR)大数据服务。 这样做可以让团队更灵活地根据需要将Spark扩展到更大的工作负载。但是,这也造成了与公司大数据分析能力有关的其他问题。

定价很复杂,而且随着越来越多的团队成员加入Spark,让每个人都在同一页面上工作是一个挑战,Baird表示。由于每个新工作都有Spark集群,当工作完成后,Spark团队成员需要访问不断变化的Apache Zeppelin笔记本,该团队在EMR中使用EMR作为分析前端来分析Spark数据。


(图片来源于网络)


在此期间,Baird和他的团队希望在整个公司提供Spark的数据。这意味着向商家支持团队开放数据,以便向客户报告通过CardinalCommerce平台处理的交易。 Baird说:“我们的使命是让那些不在我们团队的人使用这个产品。”

这一努力使他的团队进入了Databricks的Spark平台。Baird说,他们做出了这一举动,部分原因是与EMR相比,Databricks提供了一个简化的用户界面,以及一个价格结构,使它更容易在需要时启动Spark集群,并提前知道成本。现在,任何有基本SQL技能的人都可以在Spark中查询数据。

Baird表示,Databricks比EMR更昂贵。但是,降低公司大数据分析能力的复杂性更加值得。


大数据的成功引发了更多的需求


大数据的成功会产生更多用例的需求。一旦平台启动并运行,并为结构化报告和临时SQL查询提供一致的结果,Baird团队决定在Databricks上运行Tableau的数据可视化软件。








请到「今天看啥」查看全文