专栏名称: 量化研究方法
以量化之思想认识世界,体会量化之美。
目录
相关文章推荐
51好读  ›  专栏  ›  量化研究方法

了解大数据,这一篇不得不读!

量化研究方法  · 公众号  ·  · 2017-07-07 23:55

正文


“大数据”成为2012年的关键词汇,被认为将会带来生活、工作与思维的重大变革。谷歌、亚马逊等互联网企业在利用大数据方面所做的工作使数据行业看到了新的发展路径。大数据在教育、医疗、汽车、服务性行业的应用所彰显的能量使企业、研究者对大数据的未来充满信心。《连线》杂志主编克里斯·安德森甚至早在2008年就断言数据洪流将会带来理论的终结,科学方法将会过时,其原话是“面对大规模数据,科学家“假设、模型、检验”的方法变得过时了”。


技术的变迁在任何行业都是值得欢欣鼓舞的,但不妨在此处借用苏珊·朗格在《哲学新视野》中的论述表达一点谨慎:


某些观念有时会以惊人的力量给知识状况带来巨大的冲击。由于这些观念能一下子解决许多问题,所以,它们似乎有希望解决所有基本问题,澄清所有不明了的疑点。每个人都想迅速的抓住它们,作为进入某种新实证科学的法宝,作为可用来建构一个综合分析体系的概念轴心。这种‘宏大概念’突然流行起来,一时间把所有东西都挤到了一边。


苏珊·朗格认为这是由于“所有敏感而活跃的人都立即致力于对它进行开发这个事实造成的”,这一论述放置在今日对大数据的狂热崇拜之中也极为恰当,大数据的流行并不意味着其它的理解与思考方式就不再适合存在,正如微软的Mundie先生所说,“以数据为中心的经济还处于发展初期,你可以看到它的轮廓,但它的技术上的、基础结构的、甚至商业模型的影响还没有被完全理解。”但不可否认的是人们确实将更多的学术兴趣转移到这一领域,而一旦人们能够以审慎的思路开始清晰的阐述它们,即便一时不能提供完美的解决方案,至少也是能让人有所获益的途径。


人们在谈论大数据的美好图景时当然没有完全忘记它可能带来的风险,但担忧多集中于大数据的后果,如信息安全,而没有集中于如何看待大数据本身。本文将就当前尤其国内技术环境下,进入大数据时代所面临的风险和存在的问题做简要分析,以希望能厘清概念,澄清一些误解。

大数据的面临的风险主要表现在以下几方面:

一、海量数据的计算速度

零售业巨头沃尔玛每小时处理超过一百万客户交易,输入数据库中的数据预计超过2.5PB(拍字节,2的50次方)——相当于美国国会图书馆书籍存量的167倍,通信系统制造商思科预计,到2013年因特网上流动的数据量每年将达到667EB(艾字节,2的60次方,数据增长的速度将持续超过承载其传送的网络发展速度。


来自淘宝的数据统计显示,他们一天产生的数据量即可达到甚至超过30TB,这仅仅是一家互联网公司一日之内的数据量,处理如此体量的数据,首先面临的就是技术方面的问题。海量的交易数据、交互数据使得大数据在规模和复杂程度上超出了常用技术按照合理的成本和时限抓取、存储及分析这些数据集的能力。


现在谈到大数据,难以避免言必称美国的倾向,那么美国究竟如何应对这这方面的问题呢?


美国政府六个部门启动的大数据研究计划中,包括:

•       DARPA的大数据研究项目:多尺度异常检测项目,旨在解决大规模数据集的异常检测和特征化;网络内部威胁计划,旨在通过分析传感器和其他来源的信息,进行网络威胁和非常规战争行为的自动识别; Machine Reading项目,旨在实现人工智能的应用和发展学习系统,对自然文本进行知识插入。


•       NSF的大数据研究内容:从大量、多样、分散和异构的数据集中提取有用信息的核心技术;开发一种以统一的理论框架为原则的统计方法和可伸缩的网络模型算法,以区别适合随机性网络的方法。


•       国家人文基金会(NEH)项目包括:分析大数据的变化对人文社会科学的影响,如数字化的书籍和报纸数据库,从网络搜索,传感器和手机记录交易数据。


•       能源部(DOE)的大数据研究项目包括:机器学习、数据流的实时分析、非线性随机的数据缩减技术和可扩展的统计分析技术。


从这份研究计划可以看出,绝大多数研究项目都是应对大数据带来的技术挑战,目前我们所使用的数据库技术诞生于上世纪70年代,大数据时代首先需要解决的是整个IT结构的重新架构,提升对不断增长的海量数据的存储、处理能力。


笔者最早进入数据分析领域是在1986年,使用的机器是长城,520,小的IBM机器,在完成数据输入、问卷输入之后,做一个最简单的命令操作,需要等三个小时之后才能出结果,我们现在面对大数据时的处理能力,形象化来讲就是当年PC机对小数据的处理能力。


这也就是大数据常和云计算联系在一起的原因,实时的大型数据集分析至少需要使用像MapReduce和Hadoop那样的分析技术并有数千台电脑同时工作,因为想做到实时分析,需要在数据库中空出分析工作空间,控制对资源和数据的访问,同时不影响生产系统。在现有的技术条件下谈大数据需要充分考虑到硬件设施和分析技术的不足,因为这是前提,这也正是数据中心成为谷歌、亚马逊最高机密的原因,Facebook的开源硬件计划得到众多企业包括国内的腾讯响应的积极响应也是基于这方面的现实需要。

二、海量数据带来的风险是处处都是假规律


“如果只就人类的认识是零星、细小的而言,小之中蕴含着智慧,因为人类的认识更多的是依靠实验,而不是依靠了解。最大的危险必然是不顾后果的运用局部知识。”舒马赫在《小的是美好的》一书中用这段话来表达对核能、农业化学物、运输技术大规模运用的担忧,也适用于今日调查行业、企业、研究者对全数据的迷信、忽视抽样所带来的风险。


对于海量数据数据的计算能力随着分布式缓存、基于MPP的分布式数据库、分布式文件系统、各种NoSQL分布式存储方案等新技术的普及可以解决,但这只是关于数据处理的第一步(甚至这种处理方式本身都存在很大风险),还并不是最大的风险,大数据最为严重的风险存在于数据分析层面。


(一)数据量的增大,会带来规律的丧失和严重失真


维克托·迈尔-舍恩伯格在其著作《大数据的时代》中也指出这一点,“数据量的大幅增加会造成结果的不准确,一些错误的数据会混进数据库,”此外,大数据的另外一层定义,多样性,即来源不同的各种信息混杂在一起会加大数据的混乱程度,统计学者和计算机科学家指出,巨量数据集和细颗粒度的测量会导致出现“错误发现”的风险增加。那种认为假设、检验、验证的科学方法已经过时的论调,正是出于面对大数据时的混乱与迷茫,因为无法处理非结构化的海量数据,从中找出确定性的结论,索性拥抱凯文凯利所称的混乱。这种想法在某些领域是有效地,比如它可以解释生物的选择性,东非草原上植物的选择过程,但是未必能解释人,解释事件过程和背后的规律。


大数据意味着更多的信息,但同时也意味着更多的虚假关系信息,斯坦福大学Trevor Hastie教授用‘在一堆稻草里面找一根针’来比喻大数据时代的数据挖掘,问题是很多稻草长得像针一样,‘如何找到一根针’是现在数据挖掘的问题上面临的最大问题,海量数据带来显著性检验的问题,将使我们很难找到真正的关联。


我们以一个实际的案例来看一下样本量不断增大之后,会出现的问题:

表1 数据量增大之后带来的显著性检验问题


上表是关于2006年网络游戏历程扩散的回归分析,当样本量是5241个的时候,你会发现用一个简单的线性回归拟合这个数据,年龄、文化程度、收入这三个变量显著,当我们把样本量增加到10482个的时候,发现独生子女和女性开始显著,增加到20964个的时候,体制外这个变量也开始显著,当样本增加到33万的时候,所有变量都具有显著性,这意味着世间万物都是有联系的。那么在这个时候,如果说上亿个人呢?样本大到一定程度的时候,很多结果自然就会变得显著,会无法进行推论,或者得出虚假的统计学关系。此外,断裂数据、缺失数据(下文将会进行分析)的存在将会使这种虚假关系随着数据量的增长而增长,我们将很难再接触到真相。


事实上,真实的规律是这样的:

体制外


体制内

图1  2006年网络游戏扩散的Logistic回归

(数据来源:第一象限)

这是网络游戏2006年历程扩散的结果,实际模型是这样的,通过这个模型我们可以看到:


1. 分文化程度、体制内外不同年龄的人群在游戏使用上存在显著差异,可以清晰的看到在2006年网络游戏呈现出文化程度主导下的创新扩散规律。


2.在高文化程度人群中,开始向34岁-40岁扩散,呈现大幅增长,并形成一个峰值。


3.在低文化程度群体中,比如高中、初中在年轻群体中迅速扩散,形成一个峰值。


4.在2006年,网络游戏从文化程度的几个角度开始扩散,年龄不再只是高低之分,而是与文化程度变量综合形成的效果。我们看到网络游戏这种波浪式的扩散过程,不仅可以找到2006年是谁在使用网络游戏,也可以用生命周期、家庭周期来解释原因,而通过对体制内与体制外人群的使用差异分析,又可以展现出工作空间不同所带来的人的行为差异。当我们把2006年的结果放回网络游戏的整个扩散历程中时,所能看到就已经不再是网络游戏本身,而是新技术带来的社会变迁过程。


对一个社会现象进行客观深刻准确的分析,对事物的理解需要数据,但更需要分析思维,在大数据时代,理论并非不重要,而是变得更加重要。我们所指的理论也并非僵化一成不变的固守旧有理论,而是在处理问题的过程中意识到海量数据所带来的复杂性,坚持分析方法和理论的不断创新。


(二)抽样分析+全数据验证的分析思路


维克托·迈尔·舍恩伯格在介绍大数据时代的数据分析思维转变时提到过三个观点,其中之一是:分析所有的数据,而不再仅仅依靠一小部分数据。全数据一时甚嚣尘上,企业、研究者以为大数据就是全数据,以至于再谈抽样都似乎带有保守主义色彩,这种看法无疑是对大数据和抽样二者都存在偏见和不足,而一个风行的词汇恰恰对于从事这项活动的人来说意味着什么才是及其重要的,如果认为大数据就是收集所有样本的信息,让数据自己说话,那么在方法论上就是狭隘的,而这种狭隘却因为其闪烁着开放、客观、全面的光芒而被忽视。


这种观点面临的第一个风险就是“全数据”在哪里?数据量达到何种程度时,可以认为是“全”数据?


这里也涉及了全数据的第二个问题全(暂且假定我们通过人们在谷歌上输入搜索条目就找到了真正意义上的全:谷歌利用搜索记录而预测到流感爆发的案例被广为引用以说明数据自会说话,当人们开始在网上搜索关于感冒的词汇表明他感染了流感,建立流感与空间、病毒的关系,能够成功的预测一场流感)数据确实能看到变化,通过变化作出“预测”,但无法解释变化的影响因素,维克托·迈尔·舍恩伯格对此的回答是:我们要相关性,不要因果关系。这并非是这位作者有选择的选择,而是放弃抽样而直接采用大数据的必然。


维克托·迈尔·舍恩伯格认为可以允许不精确而使用大数据的简单算法解决问题,而1936年《文学文摘》和盖洛普在总统选举预测中的不同表现,至今仍然向我们表明科学、严谨抽样的重要性。《文学文摘》依靠纸媒时代巨大的发行量获得240万民众的数据,而盖洛普仅在严格抽样基础上研究了5000人,是“小数据”的复杂算法超过“大数据”的简单算法的真实案例。


没有抽样的拟合,直接面对大数据,将使我们失去对人的了解,对真实规律的追寻,毕竟不是所有的社会事实都一场流感一样易于预测,况且即便是谷歌被广为赞誉的流感预测案例也被认为存在问题:在与传统的流感监测数据比较之后,根据互联网流感搜索实时更新的Google流感趋势被发现明显高估了流感峰值水平。科学家指出基于搜索有太多的噪音影响了它的精确度这表明基于社交网络数据挖掘的流感跟踪将不是替代而只能补充传统的流行病监测网络。他们正在开发噪音较少的替代跟踪方法,例如基于Twitter的流感跟踪只包含真正病人的帖子,而不是转载的流感新闻报道。

三、封闭数据与断裂数据


封闭数据和断裂数据所带来的问题在第二部分已经提到,它们会产生虚假的统计学关 系,影响分析结果的准确性和可检验性,下面具体对这两方面的问题做一个分析。


(一)封闭数据使数据缺乏多样化


“数据增值的关键在于整合,但自由整合的前提是数据的开放。开放数据是指将原始的数据及其相关元数据以可以下载的电子格式放在互联网上,让其他方自由使用。开放数据和公开数据是两个不同的概念,公开是信息层面的,开放是数据库层面的。开放数据的意义,不仅仅是满足公民的知情权,更在于让大数据时代最重要的生产资料数据自由地流动起来,以催生创新,推动知识经济和网络经济的发展。”


开放是大数据的题中之义,也是我国政府、企业在大数据时代必须适应的转变,而我们目前面临的情况仍然是一个平台一个数据,数据壁垒造成的局面是:有所有数据,同时又什么数都缺。


比如在医疗领域,大数据被认为为医疗领域带来希望 ---计算机可以在模仿人类专家在直觉方面更进一步,而不必依赖EBM这样的小数据集了。医疗信息体系仍在使用陈旧的数据屏障,在这个体系中,只有通过审核的、标准的、被编辑过的数据才能被接收,由于缺乏一致性,许多可用的数据被拒之门外。这个屏障创造了同质化的数据,而排除了能使系统真正有用的多样性。


再以新浪、搜狐、网易、腾讯四大微博的数据平台为例,四家公司的数据各自为阵,相互独立,关于微博用户行为分析都是基于对自己现有用户的分析,这种封闭的数据环境下,很多层面的具体分析都将受到很大的局限,比如重叠用户的分析,什么特征的人群会只在一个平台上开设账号,什么特征的人会在不同平台上都开设账号,在不同平台上使用风格是否相同,在不同账号下活跃度是否相同,影响因素是什么?这是在封闭的数据环境下无法进行分析的。


数据是企业最重要的资产,而且随着数据产业的发展,将会变得更有价值。但封闭的数据环境会阻碍数据价值的实现,对企业应用和研究发现来讲都是如此,因此我们需要合理的机制在保护数据安全的情况下开放数据,使数据得到充分利用。有效的解决办法之一是公正的第三方数据分析公司、研究机构作为中间商收集数据、分析数据,在数据层面打破现实世界的界限,进行多家公司的数据共享而不是一家公司盲人摸象,这才能实现真正意义上的大数据,赋予数据更广阔全面的分析空间,才会对产业结构和数据分析本身产生思维转变和有意义的变革。

(二)断裂数据使数据缺乏结构化


封闭数据使我们无法看到多样化的数据,断裂数据则使数据缺乏结构化。来自IDC的报告显示,2012年全球数字信息中90%的数据都是视频、声音和图像文件这样的非结构化数据,缺乏结构化本身是可以通过新技术解决的问题,正因为如此才使这个问题变得棘手。对新技术的过分追逐,一方面会使得数据本身的真实性、完整性遭到破坏,另一方面会使对数据背后的人和生活意义的分析得不到充分重视。







请到「今天看啥」查看全文


推荐文章
前端JavaScript  ·  Git常用资源
7 年前
销售与市场  ·  学会嗑瓜子,员工管理就简单了!
7 年前