正如在一个数字表演节目中,人们选定的数字是83,认为这会难倒魔术师,魔术师在一个4×4矩阵填写了16个数字,在组合之后,每行和每列之和都是83,并且数字在各行各列中没有重复。魔术师说,“看一下这个结果。如果将每一行的所有数字相加,则它们的总和为83,每列中的数字总和也是83。事实上,每一个组合加起来都是你选的数字。
太神奇了,对吧?这就像人们在获得到大量数据的时候的感受——就像魔术一样!
虽然人们一直在谈论大数据,数据科学和分析已经有了相当长一段时间,但在今年Strata数据会议的活动中,全面展现了市场的演变。可以看出在主题演讲和展览层面所贯穿的几个交织的主题总结出的一个信息:现在是发挥大数据价值的时候了。
这些主题都涉及了一个广泛的观念,在现实生活中大规模应用大数据,科学的数据和分析,现在是超越探索阶段的时候了。而这样规模的数据力量能够改变业务模式和客户体验,或许让人们对这一切感觉有点像魔术。
使大数据更加真实
大数据在大多数情况下一直是技术上关注的领域。虽然商业影响总是很明确,但市场的焦点主要在于实验,以及找出如何解决大规模数据集所面临的技术问题的办法。
当然,大数据的成功应用产生了巨大的业务成果,但市场的主要驱动力是技术开发,而不是业务应用。然而在2017年将有一个明显的变化。
首先,随着行业的不断发展,大数据的社会影响以及数据科学家和从业者必须发挥的重要作用将会显着增加。
“数据毁灭武器:大数据如何加剧不平等并威胁民主”一文的作者,数学家Cathy O’Neil警告说:“我们还没有制定数据科学方面的标准。而糟糕的算法可能危及人们的生命…… 这对于人工智能来说也是不公平的,它使现状和所有隐含的偏差实现自动化。这一点需要得到承认,特别是当我们将注意力集中在那些影响人们生活的事情时。”
联合国儿童基金会创新办公室首席科学家Manuel García-Herranz和美国国会图书馆创新者Jer Thorp也对数据对世界的正面和潜在的负面影响表示了类似的看法。
Garcia-Herranz分享了联合国儿童基金会如何整合数据科学和实时系统来发现的见解,同时仍然可以利用这些系统采取有意义的行动并“为人类应用数据”。
另一方面,Thorp警告说,人们所期望的客观性可能阻止他们了解数据的实际功能和影响。他的建议很简单,但却是深刻的:“不要坐谈,而是需要实践。”
与此同时,大数据和人工智能(AI)的交叉点也在加强了企业处理大数据主动性的紧迫性。虽然大数据作为人工智能动力的本质已经使二者共生,但人工智能作为企业高管面临的头号问题,这正在使企业规模的大数据在战略上占有一席之地。
实时处理大数据
将重点转移到组织如何在现实世界中应用大数据也带来了第二个重要趋势:实时应用数据和分析的转变。
越来越多的人认识到事后分析并不是唯一的大数据用例,实际上这并不是最好的用例。许多组织现在意识到,通过在交易时应用最终的分析和见解,他们可以利用大数据的最大价值。
有了这个用例,组织不仅可以使用回顾性数据进行分析和规划,而且可以使用它来塑造客户体验,更好地进行决策,并在消极结果发生之前降低风险。在交易点使用数据可以采取多种形式,应该是任何现代大数据战略的基本要素。
几家科技公司已经引入了工具和策略来帮助组织实时地整合他们从大数据计划中获得的见解和分析。这些包括(按字母顺序):
Cambridge Semantics:一种基于语义关系数据模型的端到端的探索性分析解决方案,通过根据业务环境构建数据,实现实时分析,并缩短上市时间。
MapR:融合数据平台,提供所谓的“数据结构”,将传统数据湖与流数据集成在一个单独的,位置无关的和场景感知的平台中。
Splice Machine:一种应用程序开发平台,它创建一个新的“预测应用程序”,将事务处理和分析处理合并,并将分析导出的洞察数据注入到应用程序工作流程中。
Striim:实时数据集成和流分析平台,可在摄入时分析数据,以便通过实时洞察来支持决策。
VoltDB:一个运行数据平台,可提供毫秒响应时间的实时事件处理和分析。
虽然这些技术提供商正在采用不同的方法实时应用大数据,但每个技术提供商都向企业组织提供一个相同的信息:现在是使用大数据的最佳时机。
使大数据工作
然而,如果一个组织无法在企业级和企业运行模型中实现大数据的工作,那么理解大数据的实际含义并将其应用程序转移到交易点上就没有任何好处。随着组织试图将大数据移到实验领域之外,走向全面的、企业级的应用程序,它们遇到了重要的治理、管理和规模问题。
因此,Strata会话展现的第三个主题是组织在企业规模上进行大数据化工作的必要性,这并不奇怪。毫无疑问,这一进程的很大一部分需要文化和组织转型。但也很清楚,组织还必须转变如何应用技术本身,使其在一定规模中工作。
一些科技公司展示了新的技术和技术驱动的方法,他们认为这将有助于企业组织应对大数据企业的各个方面,包括(按字母顺序排列):
Dataguise:一个数据管理平台,可发现,检测,保护,以及监控敏感信息,如PII,PCI和HIPPA,无论是否在组织的数据格局中。
Dataiku:一个大数据平台,创建一个单一的数据流水线,打破孤岛效应,使数据科学家和数据分析人员能够轻松协同工作,加快预测解决方案的部署速度。
DriveScale:一个软件公司改变组织部署和使用所谓的“软件可组合基础架构”的方式,以智能和高度动态的方式连接分解的组件(计算和存储)。
Pure Storage:高效的存储平台,专门用于扩展大数据部署,现代分析需求和人工智能。
Zaloni:一个数据湖管理平台,专注于帮助企业实施数据湖,并迅速获得规模化的业务价值。
发挥大数据的价值
大数据行业核心技术面临的挑战仍然存在,并将在可预见的未来持续下去。随着数据呈指数级增长,企业组织和服务于其的技术公司将继续处在一场持续的战斗中,使其变得易于管理。
然而,很明显,组织现在正在开始认真应对在整个企业中应用大数据所带来的挑战,从而可以加速数字化转型,为日益增长的人工智能提供动力。
而且很明显,行业和企业组织都认识到,为了实现大数据的承诺,他们需要获得大数据的价值。