让更多用户参与分析过程？满足数据需求新玩法

TechTarget · 公众号 · 科技媒体 · 2017-12-14 10:37

正文

TechTarget 原创

通过使用Spark进行大数据分析，Visa全资附属公司CardinalCommerce在整个组织内加大了对数据的需求，并让更多的内部用户参与分析过程。

关于大数据分析，用户的需求似乎总是“永无止境”。

这是CardinalCommerce在增强大数据分析能力的过程中得到的教训之一。该公司位于俄亥俄州，在2017年被Visa收购。现在为在线商户提供服务，以确定使用其他支付平台(如PayPal)的购买者的身份。毋庸置疑，在线金融交易产生大量的数据，要从这些资源中获得更多的见解，这既是一项首要任务，也是一项核心挑战。

（图片来源于网络）

CardinalCommerce数据系统经理Christopher Baird表示：“我们每天都进行大量的交易。我们收集了指标数据，记录数据等等，我们必须把它带回到报告环境。”

几年前，随着Apache Spark变得越来越重要，Baird的团队成员在办公场所建立了一个小型集群，运行Spark进行基本数据处理任务，例如从CardinalCommerce的网络支付处理平台返回数据以完成报告。他们主要使用Microsoft SQL Server Reporting Services软件来跟踪XML消息格式中的数据质量问题，平台使用该格式对在线购物者进行身份验证。他们得到了不错的结果，但问题是集群太小，无法扩展到更大的用例。

（图片来源于网络）

Baird说：“显而易见，我们掌握的数据都不够用。”

云中的Spark提高了可扩展性

因此，CardinalCommerce决定将Spark工作负载转移到云中的亚马逊弹性MapReduce（EMR）大数据服务。这样做可以让团队更灵活地根据需要将Spark扩展到更大的工作负载。但是，这也造成了与公司大数据分析能力有关的其他问题。

定价很复杂，而且随着越来越多的团队成员加入Spark，让每个人都在同一页面上工作是一个挑战，Baird表示。由于每个新工作都有Spark集群，当工作完成后，Spark团队成员需要访问不断变化的Apache Zeppelin笔记本，该团队在EMR中使用EMR作为分析前端来分析Spark数据。

（图片来源于网络）

在此期间，Baird和他的团队希望在整个公司提供Spark的数据。这意味着向商家支持团队开放数据，以便向客户报告通过CardinalCommerce平台处理的交易。 Baird说：“我们的使命是让那些不在我们团队的人使用这个产品。”

这一努力使他的团队进入了Databricks的Spark平台。Baird说，他们做出了这一举动，部分原因是与EMR相比，Databricks提供了一个简化的用户界面，以及一个价格结构，使它更容易在需要时启动Spark集群，并提前知道成本。现在，任何有基本SQL技能的人都可以在Spark中查询数据。

Baird表示，Databricks比EMR更昂贵。但是，降低公司大数据分析能力的复杂性更加值得。

大数据的成功引发了更多的需求

大数据的成功会产生更多用例的需求。一旦平台启动并运行，并为结构化报告和临时SQL查询提供一致的结果，Baird团队决定在Databricks上运行Tableau的数据可视化软件。

让更多用户参与分析过程？满足数据需求新玩法

正文

请到「今天看啥」查看全文