专栏名称: 程序猿

本微信公众号：imkuqin，为程序员提供最新最全的编程学习资料的查询。目前已经开通PHP、C/C++函数库、.NET Framework类库、J2SE API查询功能。

漫画：什么是大数据？

程序猿 · 公众号 · 程序员 · 2016-11-06 22:12

正文

来自：梦见（微信号：dreamsee321）
已获转载授权

大数据是具有海量、高增长率和多样化的信息资产，它需要全新的处理模式来增强决策力、洞察发现力和流程优化能力。

Big data is high volume, high velocity, and/or high variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization.

大数据通常都拥有海量的数据存储。仅根据2013年的统计，互联网搜索巨头百度已拥有数据量接近EB级别、阿里、腾讯声明自己存储的数据总量都达到了百PB以上。此外，电信、医疗、金融、公共安全、交通、气象等各个方面保存的数据量也都达到数十或者上百PB级别。

面对这样规模的数据存储量，依靠单台数据库服务器显然是不够的，需要以分布式文件系统（例如 HDFS）作为基石。

在传统的关系型数据库中，所存储的数据都是结构化的，例如：

但是在现实生活中，信息往往并没有严格的结构限制。比如一个电商网站需要记录如下用户行为：

用户张三，于某某时间在商品搜索栏搜索了“苹果手机”一词，然后进入 XXX 商铺进行浏览，经过与店家沟通，讨价还价，最终以6000元的价格购买了 iPhone 7 “钢琴黑”款式手机一部。

诸如此类的用户行为数据属于非结构化数据，很难用关系型数据库存储。因此诸多No-SQL数据库（例如 HBase）成为了存储大数据的更好选择。

如果没有更加快速有效的海量数据解决方案，那么如此大量多样的数据不但没有带来更多价值，反而成为了系统的负担。关于这一点，谷歌公司率先提出的MapReduce模型为我们带来了新的道路。

MapReduce可以简单的理解成一种分治方法：把庞大的任务分成若干小任务，交给多个节点进行并行处理，然后再把所有节点的处理结果合并起来，从而大大提升了数据处理效率。（关于MapReduce的详细流程，将会在以后的文章中进行讲解。）

人工智能：

以大数据作为机器学习的训练集，从而训练出拥有一定决策能力的人工智能。典型的代表案例就是谷歌的AlphaGo, 通过大量围棋棋局的学习，最终拥有了打败围棋世界冠军的能力。

商业分析：

从大量的用户行为数据中挖掘出有价值的商业信息。典型代表是著名社交公司LinkedIn，他们通过用户之间的关联关系，绘画出学校、公司、人才之间庞大而复杂的信息网络。不仅如此，LinkedIn还通过大量求职者和招聘方的信息，分析出哪些公司正在迅速扩张，哪些公司正在流失人才，哪些公司之间正在展开人才市场的争夺。这些对于客户公司来说，都是无价之宝。

犯罪预测：

洛杉矶警察局曾经借助一套原本用于预测地震后余震的大数据模型，把过去80年内的130万个犯罪记录数据输入进去，结果发现其预测出的犯罪高发地点与现实惊人的吻合。后来该预测算法经过改进，已经成为了当地警局重要的参考依据，大大降低了当地的犯罪率。

这里所介绍的相关知识，只是作者对于大数据领域的浅层次理解。通过这篇漫画，希望没有从事过IT行业，或者不了解大数据的朋友们能够对大数据有一些初步的认知。

来自：梦见（微信号：dreamsee321）

●本文编号2042，以后想阅读这篇文章直接输入2042即可。

●本文分类“大数据”，搜索分类名可以获得相关文章。

●输入m可以获取到文章目录

本文内容的相关公众号推荐

Linux学习↓↓↓

Python编程↓↓↓

更多推荐《15个技术类公众微信》

涵盖：程序人生、算法与数据结构、黑客技术与网络安全、大数据技术、前端开发、Java、Python、Web开发、安卓开发、iOS开发、C/C++、.NET、Linux、数据库、运维等。