大数据的历史
2018年9月30日,中国互联网巨头腾讯公司的总裁刘炽平发出一封全员信,正式启动了公司历史上第三次重大组织架构调整,外界解读腾讯此举是为了把人工智能、大数据和云计算提升到更核心的战略位置,其实不止腾讯,谷歌、亚马逊、阿里巴巴、百度、小米等互联网巨头近年来都在调整组织架构,这些种种都是为了适应已经无法回避的ABC时代的到来。所谓 ABC 是指以A(AI,人工智能)、B(Big Data,大数据)、C(Cloud,云计算)为代表的产业趋势和技术变革。业界普遍认为这将是继PC时代、移动互联网时代后的又一次产业变革,标志着一个全新的时代已经来临。这其中云计算(C)将会像我们日常生活中的水和电一样,作为整个互联网的底层基础设施提供服务,为企业的数据资产提供保管、访问的场所和渠道。有了基础设施但对企业来说只有数据才是真正有价值的资产,这里说的数据包括企业内部的经营信息、互联网中的商品信息、聊天软件中人与人的沟通信息、位置信息等等,这些数据的数量将远远超过企业现有的IT架构和基础设施的承载能力,随之而来的是企业应用的实时性要求也将大大超越现有的计算能力。如何盘活使用这些极具价值的数据资产,让它们能为国家治理、企业决策和个人生活服务,正是 大数据处理 的核心,也是云计算内在的灵魂和必然的升级方向。
随着这股趋势,最近几年 大数据 这个词也在诸多技术大会上越来越多地被提及。人们用它来描述和定义信息时代产生的海量数据,并命名与之相关的技术发展与创新。最早提出大数据时代到来的是全球知名咨询公司麦肯锡,其实大数据在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,只是因近年来互联网和IT行业的发展而引起人们关注。根据中国信息通信研究院结合对大数据相关企业的调研测算,2017年我国大数据产业规模为4700亿元人民币,同比增长30%,预计到2020年产业规模将达到一万亿。(来源:中国信息通信研究院,《大数据白皮书(2018)》)
究竟何为大数据?根据研究机构Gartner给出的定义:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。(来源:搜狗百科)而麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。诸多定义中搜狗百科的大数据词条更得我心:大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
被誉为“大数据商业应用第一人”的维克托·迈尔·舍恩伯格认为大数据是指不用随机分析法(比如抽样调查)这样的捷径,而是采用对所有数据进行分析处理的方式,大数据的核心就是预测,它将为人类的生活创造前所未有的可量化的维度。他认为大数据时代最大的转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”。这就颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流的方式提出了全新的挑战(来源:《大数据时代》作者访华 与田溯宁对话大数据_网易科技)。这些用IBM的总结就是5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
从技术发展历史看,可以把大数据处理划分为前身、产生、和应用三阶段。从上个世纪的90年代一直到本世纪初,可以说是大数据处理的前身,那时的数据存储和处理的主流还是在数据库上,随着数据库技术和数据挖掘理论的日渐成熟,数据仓库和数据挖掘技术开始逐步发展起来,各种商业智能工具开始被应用,比如数据仓库、专家系统、知识管理系统等等。
随着互联网各种新业务的出现,各类非结构化的数据大量涌现,使传统的数据库技术越来越难以应对。例如Facebook的流行使得社交类应用产生的大量非结构化数据,众所周知的 Google 公司其搜索引擎业务天然要面对日益膨胀的海量数据的存储和处理,这些都带动了大数据技术的发展进入了快车道。业界一般以 Google 公司在2003到2006年之间发布的三篇论文作为大数据处理技术产生的起点,分别是:GFS、MapReduce和Bigtable。GFS(2003)是一个可扩展的分布式文件系统,用于对分布式的大量的数据进行访问,它运行于廉价的普通硬件上,并提供了容错功能。MapReduce(2004)是处理海量数据的并行编程模式,用于大规模数据集的并行运算,它能够充分利用GFS集群中所有低价服务器提供的大量CPU,从架构上来说可以看做GFS的补充,它与GFS一道构成了海量数据处理的核心。GFS适合存储少量的非常大的文件,但不适合存储成千上万的小文件,为了处理大量的格式化以及半格式化数据,诞生了管理非关系型数据的分布式数据存储系统BigTable(2006),它的设计目标是快速可靠地处理PB级别的数据,并且能够部署到上千台机器上。以这三篇论文为标志可以看做大数据处理技术的起源。
在大数据处理技术的发展历程中不得不提的是Hadoop,2005年由Apache软件基金会主席Doug Cutting在雅虎时创建这个项目是一个针对大数据分析的开源分布式计算平台,它能够让应用安全扩展以处理数千个节点以及PB级数据。Hadoop通过构建一个关于MapReduce的开源平台,无意中创建了一个蓬勃发展的生态系统,其影响力所及的范围远远超出了其最初Hadoop的范围。在Hadoop社区,工程师可以从早期的GFS和MapReduce论文中改进和扩展这些想法,基于此之上产生了许多有用的工具,如Pig、Hive、HBase、Crunch等等。这种开放性是导致整个行业现有思想多样性的关键,同时Hadoop的开放性生态也直接促进了流计算系统发展。随着互联网行业的快速发展,生产、使用、处理和分析数据的速度也在以令人难以置信的步伐迅速增加,由社交媒体、物联网、广告和游戏等垂直领域都开始处理正在变得越来越大的数据集。从业务上来看这些行业需要一种接近实时的数据处理和分析,因此像Hadoop这种用于大数据的批处理的传统框架已不是很适合这些场合。2007年之后陆续启动了多个开源项目以新的思路来处理来自不止一个数据源的源源不断的数据记录,其中以Apache的众多项目最为著名,目前这些项目都处于不同的发展阶段。
现如今,随着智能移动设备、物联网等技术的广泛应用,数据的碎片化、分布式、流媒体特征更加明显,大数据技术开始与移动和云技术相结合,开始向复杂事件处理、图形数据库和内存计算等方向发展。大数据的概念越来越被垂直行业以及大众所接受,通过催化新的商业模式使得大数据同传统行业的边界变得越来越模糊,大家开始更加关注业务的创新而非技术本身,大数据产业的主题也转向应用对行业的变革性影响,来到了真正的应用阶段。
大数据的发展方向
大数据技术是一种新的技术和架构,致力于以较低的成本、更快速的采集、处理和分析各种超大规模的数据,从中提取对企业有价值的信息。随着该技术的蓬勃发展,让我们处理海量数据更加容易、更加便宜和迅速,成为利用数据的好助手,甚至可以改变许多行业的商业模式。在人工智能、云计算和物联网的帮助下,即使是复杂的大数据,也可以由普通的数据从业者利用相应的数据分析工具来进行处理。大数据分析已经脱离了热门IT趋势标签,现如今成为了公司业务必须的一部分,它将很快取代黄金成为人类最宝贵的资产之一,在《未来简史》中讲到:“谁拥有数据,谁拥有对数据的解释权,谁就有可能在未来的竞争中占得先机”。为了让读者快速了解有关大数据的最新信息,下面列出了一些最热门的大数据趋势,以推动行业未来发展。以下是摘自阿里云栖社区翻译整理的关于大数据 值得了解的十大数据发展趋势
快速增长的物联网网络
由于物联网(IoT)技术,智能手机被用于控制家用电器变得越来越普遍。随着小米和阿里等智能设备在家庭中实现特定任务的自动化的普及,物联网热潮也正吸引着很多公司投资于该技术的研发。
更多组织将抓住机会以提供更好的物联网解决方案,这必然将带来更多收集大量数据的方法,以及管理和分析数据的方法。业界的研究趋势是推动更多能够收集、分析和处理数据的新设备,比如手环、智能音箱、眼镜等。
普及的人工智能技术
人工智能现在更常用于帮助大公司和小公司改善其业务流程。人工智能现在可以在执行任务时,能够比人类更快、更精确,以此减少人为引入的错误并改善整体流程,这使得人们能够更好地专注于更关键的任务,并进一步提高服务质量。
人工智能的快速发展以及较高的薪资吸引着很多开发人员进入该领域,幸运的是,市面上有成熟的人工智能开发工具箱可供使用,每个人都可以根据实际任务构建相应的算法,满足不断增长的需求。如果个人组织能够找到将其整合到业务流程中的最有效方式,那么可能会获得较大的优势。
预测分析的兴起
大数据分析一直是企业获得竞争优势并实现目标的关键战略之一,研究人员使用必要的分析工具来处理大数据并确定某些事件发生的原因。现在,通过大数据进行预测分析可以帮助更好地预测未来可能发生的情况。
毫无疑问,这种策略在帮助分析收集的信息以预测消费者行为方面非常有效,这允许公司在做相关开发之前了解客户的下一步行动,以确定他们必须采取的措施。数据分析还可以提供更多数据上下文,以帮助了解其背后真正的原因。
迁移到云端的暗数据
尚未转化为数字格式的信息称为暗数据,它是一个目前尚未开发的巨大数据库。预计这些模拟数据库将被数字化并迁移到云端,进而用于对企业有利的预测分析。
首席数据官将发挥更大的作用
现在,大数据越来越成为执行业务战略中的重要组成部分,首席数据官也在其组织中发挥着更重要的作用。首席数据管们被期待着引导公司走向正确的方向,并采取更积极的方法,这一趋势为寻求职业发展的数据营销人员打开了大门。
量子计算
目前,使用我们现有的的技术分析和解释大量数据可能需要花费大量时间,如果能在短短几分钟内同时处理数十亿的数据,我们就可以大大缩短处理时间,让公司有机会做出及时的决策,以达到更理想的效果。
这项艰巨的任务只能通过量子计算实现,尽管目前量子计算机的研究处于起步阶段,但已经有一些公司正在使用量子计算机进行相关实验,以帮助不同行业的实践和理论研究。之后不久,谷歌、IBM和微软等大型科技公司都将开始测试量子计算机,将它们集成到业务流程中。
开源解决方案
目前,有许多可用的公共数据解决方案,例如开源软件,它们已经在加速数据处理方面取得了相当大的进步,同时还具有实时访问和响应数据的功能。出于这个原因,预计它们将在今后快速发展且需求量会很大。虽然,开源软件很便宜,可以使用开源软件降低企业的运营成本,但是,使用开源软件也有一些弊端,这里是你需要知道的一些缺点。
边缘计算
由于物联网的发展趋势,许多公司正在转向研究连接设备以收集客户更多的数据或流程数据,这就创造了对技术创新的需求。新的技术旨在减少从数据收集到云端,其分析和需要采取行动的滞后时间。
针对这一问题,边缘计算可以提供更好的性能,因为其流入和流出网络的数据更少,云计算的成本更低。如果公司选择删除掉之前从物联网中收集到的不必要的数据,公司也可以从降低存储和基础设施这些成本中受益。此外,边缘计算可以加速数据分析,为公司做出正确的反应提供充足的时间。
更智能的聊天机器人
由于人工智能的快速发展,很多公司现在正部署聊天机器人来处理客户查询等应用场景,以提供更加个性化的交互模式,同时消除对人工的需求。
大数据与提供更愉快的客户体验之间有着很大的关系,因为机器人通过处理大量数据,进而根据客户在查询中输入的关键字来提供相关答案。在交互过程中,他们还能够从对话中收集和分析出有关客户的信息,这一流程进而帮助营销人员制定出更简化的策略,以实现更好的用户转化率。
总结
所有这些不同跨行业的技术飞跃,都是基于大数据的发展为其奠定的坚实基础。技术的进步将继续通过更智能的流程帮助我们创造出一个更美好的社会。我们必须充分了解这种技术的使用方式,以及腰实现具体的业务目标,二者结合才能最终从这些趋势中受益。这些都只是一个开始,大数据将继续作为我们在业务和技术方面所经历变革的催化剂。我们可以做的是思考如何有效地适应这些变化,并利用这项技术实现业务蓬勃发展。
其他还有人民网与去年发表的 2018全球大数据产业将呈七大发展趋势
大数据处理框架简介
从技术角度看,一般认为真正开启大数据处理技术之门的是 Google 在2003到2006年间发表的三篇经典文章:GFS、BigTable、MapReduce,它们也被称为 Google 的分布式计算三驾马车,由此开始诞生了第一个在开源社区获得极大关注的大数据处理框架 Hadoop ,这个以 HDFS、HBase、MapReduce 为主的技术栈其影响一直延续到今天。