大数据播报第十一期
通过大数据挖掘,将数据转化为业务价值,这已经成为大数据时代企业重要的生存技能。那么,在利用大数据挖掘业务价值的过程中,企业首先面临的难题有哪些?中桥调研数据显示,数据安全首当其冲,成为大数据“掘金”中企业最为困扰的第一大挑战(56.4%),其次是企业线上和线下各种数据的整合(54.2%)以及模型的建立(48.4%)。
随着企业向数字化转型日益深入,数据的重要性越来越凸显,并逐渐成为经济发展中新的生产力及新的价值资源。麦肯锡认为,“人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来”。中桥的调研数据也显示,大数据能够带来的业务价值包括提高企业业务利润、实现企业业务增长、提升企业核心竞争力等方面。不过,大数据虽好,但要想成功进行数据“掘金”,首要前提是保证数据的安全。这其中包含几个方面:一是保证数据的存储安全。在大数据时代,数据的数量、类型、规模都飞速增长,线上线下数据汹涌而来,面对海量数据,企业不但要在业务上具备“软实力”,同时也要搭建好IT环境,做好“硬实力”的准备,通过存储、备份、容灾等技术,保证数据的安全。二是防止数据泄露、黑客攻击等事件的发生。在“互联网+”的推动下,在线数据、云存储数据的占比越来越多,同时,由于新应用的不断增加,企业IT应用常会处于双模式IT架构下,从而加大了数据安全的风险性,因此,网络安全、云安全备受企业关注。同时,正是双模式IT的运营方式,使应用产生了各种线上、线下数据,而对这些数据的整合和统一管理,成为企业实施大数据面临的一大挑战。
基于对数据价值的认识,各种规模的企业都加大了对大数据领域的投入。俗话说,“好钢用在刀刃上”,那么,企业实施大数据,将把有限的IT预算投入到哪些方面呢?中桥调研数据显示,数据分析ETL(抽取、迁移和加载)(46.6%)、商业智能(BI)(44.3%)和数据仓库(42.6%)在企业IT对大数据投入榜单上位居前三位。随着企业数据量的爆炸式增长,如何有效的搜集、分析、管理、利用数据,提升商业智能分析的性能与速度,将对企业的创新与可持续发展起到至关重要的作用。
随着企业数据规模的快速增长,其数据来源、数据种类也呈现出多样化,而这些多源、多类型的数据,只有通过大数据分析技术对其进行深度挖掘,才能为企业业务创造价值。可以说,数据分析ETL、商业智能和数据仓库这是大数据分析的最基本和重要的环节,同时三者之间也是相辅相成的。数据仓库是数据集成和高质量数据的来源。企业将所收集到的数据汇聚到数据仓库,以进行数据全生命周期的监管。而ETL作为构建数据仓库的重要一环,通过对多种数据源的数据和实时数据进行抽取、迁移,最后加载到关系型或非关系型数据库中。而对数据进行分析的最终目的,是为企业业务提供支持。商业智能(BI)属于殊途同归。BI不仅要从整个战略层面为企业业务提供综合分析,还能够在具体的战术层面进行详细指导。因此,可以说,对上述三大领域的投入,其最终目的都是为了提升数据价值,从而助力企业业务发展。
采用什么样的技术如何实现大数据分析?中桥调研数据显示,现阶段有37.5%的企业选择利用数据库或应用软件某种功能再开发;有21.2%的企业则通过采购分析软件来实现大数据分析;而20.4%的企业则对基于开源的技术情有独钟;还有12.8%的企业选择跨表结构数据库和Hadoop来进行大数据分析。
在大数据时代,典型的大数据分析为业务创造价值,主要分为三个阶段:批量分析、近实时分析、实时分析。实时或近实时数据分析一般用于金融、移动和互联网B2C等产品,往往要求在数秒内返回上亿行数据的分析,以获得很好的用户体验。而对于大多数反馈时间要求不那么严苛的应用,则通过数据采集工具将日志数据导入专用的分析平台,进行批量分析。
目前,就中国企业而言,很多企业采用的还是传统的关系型数据库,再加上传统的IT架构,这种类型应用的数据量,无论是数据处理,还是数据分析,都难以做到实时和近实时;再者,实时事件/交易/交互数量每秒以百万计,由此产生的数据自然会给数据流处理系统造成巨大的压力。对IT架构的计算、存储和管理都有着近乎苛刻的要求,这也是目前为什么会有37.5%的用户通过数据库或应用软件的某种功能再开发来实现大数据分析的主要原因。而一些专门从事大数据分析的公司所提供的专业软件,由于其专业性、兼容性,以及提供对数据的前期处理、整合和数据分析等完整的解决方案,对用户来说,也具有强烈的吸引力。另外,开源技术近几年的兴起,利用开源技术进行大数据分析也成为一种潮流。
戴尔软件高级分析业务总经理John K. Thompson曾经说过,“在现代数据经济中,从所有数据中获取预测性洞察的能力,对于打造敏捷、互联且繁荣的数据驱动型企业至关重要。不管数据来自于物联网环境中实时传感器还是为分析大量离散数据而设计的大数据平台。”可以说,在大数据时代,数据驱动型决策已经成为实现企业竞争优势最主要的一种方式。然而,虽然目前越来越多的企业已经意识到数据对于企业自身发展的重要性,但很多企业自身并没有完善的或者足够强大的数据处理能力,无论是硬件、软件设备还是数据人才等方面都相对欠缺。戴尔作为未来就绪的企业,一直以来都将大数据作为一个重要领域。在戴尔发布的戴尔中国4.0 战略中,也针对大数据指出了明确的方向,包括:戴尔公司与中国科学院合作,共同成立“人工智能与先进计算联合实验室”;全力支持和拥抱“互联网+”的国家战略,并与金山云公司签署战略合作伙伴协议,加强与本地合作伙伴的大数据和云战略合作等。
戴尔端到端大数据解决方案包括基础架构和服务、数据集成解决方案和数据库管理解决方案、高级分析解决方案,以及与Cloudera、Intel、Microsoft、Oracle和SAP的多种合作伙伴关系,其完整的技术堆栈和全面的产品组合使客户能够从他们的所有数据中提取价值。
戴尔基础架构和服务:戴尔利用Dell 13G服务器、基于闪存性能优化的存储和开放式网络,搭建未来就绪基础架构平台,能够与企业现有架构进行无缝集成,并满足企业不断变化的需求,同时结合戴尔一揽子服务,为大数据和分析做好“硬着陆”准备。
戴尔数据集成解决方案:戴尔利用SharePlex、Boomi AtomSphere和Mastser Data Management,将分散在应用程序(内部部署和SaaS)、传统数据库、非结构化源、传感器数据和社交网站的数据进行实时集成,消除数据孤岛,帮助企业客户实现数据的内外部迁移,并确保所有环境中的数据质量。
戴尔数据库管理解决方案:借助戴尔数据库管理解决方案,企业能够经济高效地管理从关系数据库到半结构化和非结构化数据平台的各种平台,并且所有数据不会与单个数据库进行绑定,这使得数据能够具有充分的“流动性”,从而实现所有数据的管理和利用,为客户实现智慧分析。
戴尔高级分析解决方案:戴尔借助高级数据分析平台Statistica,创建预测模型,将企业结构化数据、半结构化数据和非结构化数据进行统计,开启企业创新服务第一步,最终转换为可行性业务决策。
在合作伙伴方面,戴尔利用其广泛的专业知识和深厚的数据库合作伙伴经验,通过其经过测试和验证的参考体系架构,帮助企业充分利用Oracle、Microsoft SQLServer、Hadoop和SAP HANA环境,实现快速、持续且流畅的数据库性能。
戴尔Apache Hadoop解决方案在充分利用现有的工具和资源的基础上,通过加快分析、探索、查询和转换工作负载的速度,实现分布式环境中数据的收集、管理、分析和存储,为企业业务持续创新提供助力。
戴尔Oracle加速解决方案可独立于数据库进行部署,在提高Oracle数据库可用性的同时,戴尔DAAD可向任何数据库服务器提供12 TB的共享闪存,IOPS提升多达27.4倍,延迟最多可降低96 %。
戴尔SAP/SAP HANA 解决方案利用戴尔在SAP和SAP HANA方面深厚的经验,加快企业的交易速度并降低对硬件的要求,同时改进资源规划、客户关系管理和供应链物流,并借助云计算更快实现商业智能。
戴尔SQL Server的解决方案通过稳健可靠的服务器、速度更快的存储、高性能网络、世界一流的软件和业界领先的咨询服务,创建了理想的SQL Server环境,显著增强了交易、数据仓库、商业智能和分析工作负载的性能。
北京大学与哈佛大学在低温电子显微镜(cryo-EM)领域进行合作研究中,需要对高度自动化的低温电子显微镜所产生的大量的数据进行大数据分析。为此,北京大学采用了戴尔提供的解决方案,部署了两个高性能计算集群,包含144个节点,并通过英特尔EE Lustre实现了大约2PB的存储容量,以支持科研人员绘制生物大分子的三维结构,用于为癌症和其他疾病患者设计抑制剂及开发新药。
北京大学生物物理学助理教授毛有东博士表示:“戴尔的解决方案对于我们的科研工作至关重要,这些高性能计算系统推动了对一流算法的开发,以便为重大的生物医学问题找到结构性的解决方案,这将推动在癌症免疫疗法以及精准治疗领域的创新。”