TechTarget 原创
通过使用Spark进行大数据分析,Visa全资附属公司CardinalCommerce在整个组织内加大了对数据的需求,并让更多的内部用户参与分析过程。
关于大数据分析,用户的需求似乎总是“永无止境”。
这是CardinalCommerce在增强大数据分析能力的过程中得到的教训之一。该公司位于俄亥俄州,在2017年被Visa收购。现在为在线商户提供服务,以确定使用其他支付平台(如PayPal)的购买者的身份。毋庸置疑,在线金融交易产生大量的数据,要从这些资源中获得更多的见解,这既是一项首要任务,也是一项核心挑战。
(图片来源于网络)
CardinalCommerce数据系统经理Christopher Baird表示:“我们每天都进行大量的交易。我们收集了指标数据,记录数据等等,我们必须把它带回到报告环境。”
几年前,随着Apache Spark变得越来越重要,Baird的团队成员在办公场所建立了一个小型集群,运行Spark进行基本数据处理任务,例如从CardinalCommerce的网络支付处理平台返回数据以完成报告。 他们主要使用Microsoft SQL Server Reporting Services软件来跟踪XML消息格式中的数据质量问题,平台使用该格式对在线购物者进行身份验证。他们得到了不错的结果,但问题是集群太小,无法扩展到更大的用例。
(图片来源于网络)
Baird说:“显而易见,我们掌握的数据都不够用。”
因此,CardinalCommerce决定将Spark工作负载转移到云中的亚马逊弹性MapReduce(EMR)大数据服务。 这样做可以让团队更灵活地根据需要将Spark扩展到更大的工作负载。但是,这也造成了与公司大数据分析能力有关的其他问题。
定价很复杂,而且随着越来越多的团队成员加入Spark,让每个人都在同一页面上工作是一个挑战,Baird表示。由于每个新工作都有Spark集群,当工作完成后,Spark团队成员需要访问不断变化的Apache Zeppelin笔记本,该团队在EMR中使用EMR作为分析前端来分析Spark数据。
(图片来源于网络)
在此期间,Baird和他的团队希望在整个公司提供Spark的数据。这意味着向商家支持团队开放数据,以便向客户报告通过CardinalCommerce平台处理的交易。 Baird说:“我们的使命是让那些不在我们团队的人使用这个产品。”
这一努力使他的团队进入了Databricks的Spark平台。Baird说,他们做出了这一举动,部分原因是与EMR相比,Databricks提供了一个简化的用户界面,以及一个价格结构,使它更容易在需要时启动Spark集群,并提前知道成本。现在,任何有基本SQL技能的人都可以在Spark中查询数据。
Baird表示,Databricks比EMR更昂贵。但是,降低公司大数据分析能力的复杂性更加值得。
大数据的成功会产生更多用例的需求。一旦平台启动并运行,并为结构化报告和临时SQL查询提供一致的结果,Baird团队决定在Databricks上运行Tableau的数据可视化软件。