这是个人人都在撒谎的世界。我们对朋友撒谎、对老板撒谎、对自己的孩子撒谎、对父母撒谎、对医生也撒谎,当然对老婆、老公更要撒谎,甚至对自己撒谎。社会学家的调查问卷早就没办法获得人们的真实想法,他们获得的不过是人们修饰过的、美好的想法和观点;就连决定国家经济政策的重要指标,比如失业率、GDP等都没办法获得货真价实的数据,以此来为国家政策制定作参考,后果可想而知。
那么什么时候人们才会说真话呢?我们如何才能够听到人们的真话呢?前谷歌数据科学家Seth Stephens-Davidowitz在他的新书《Everybody Lies, Big Data, New Data and What the Internet Reveals About Who We Really Are》(
人人都在说谎,大数据、新数据以及互联网暴露的真实你我,以下简称:《
Everybody Lies》
)里告诉大家的答案是:
谷歌搜索引擎。
这当然不是帮谷歌做广告。事实上,在加入谷歌之前,Seth就已经利用谷歌推出的Google Trends分析人们的搜索热词,分析大众的真实想法。
Seth本科毕业于斯坦福,从哈佛拿到经济学博士,因为对数据的热爱受邀加入谷歌,现在他在宾大沃顿商学院教授一门数据课程,他也是《纽约时报》的数据专家。他的这本《Everybody Lies》今年5月份才刚刚推出,是Seth这些年大数据分析的最新成果,读起来非常有意思。
Seth说
互联网时代,人们唯一不会撒谎的对象就是搜索引擎。
夜深人静,一个人独坐书房,不可与人言的苦闷、憋屈或者疑问都可以毫无保留地写进搜索框,来寻找答案。人们觉得只需要关机之前,清理一下缓存,就真是“神不知、鬼不觉”了,而事实上,搜索引擎记住了这一切。
Google Trends上可以找到每个词、相关事件的被搜索情况,这比问卷调查得到的数据靠谱多了。比如在一项关于美国成年人性生活的社会学调研中,社会学家根据问卷发现,女性提供的性生活次数和使用的避孕套数量,是一年要用掉11亿个避孕套;而男性提供的数字,则要用掉16亿个避孕套。那么究竟哪个数字比较准确呢?根据尼尔森的调查显示,美国一年出售的避孕套数量在6亿个,远远少于男性和女性提供的数字。
“其实人人都在撒谎,只是程度问题”
,Seth对此如此解释。
Seth通过谷歌的搜索数据不仅佐证了尼尔森的数据,而且进一步发现了社会学家通过调研根本没有发现的问题:
美国人的婚姻中存在的最大问题是无性婚姻。
根据谷歌的数据,
搜索“无性婚姻”的人数比搜索“不幸福婚姻”的人数多了3倍半,是“无爱婚姻”的8倍!
这是社会学家通过问卷怎么都发现不了的,因为问卷里
只有1%的人承认自己过去一年没有性生活,但实际上这个数字远远大于1%。
一个小小的社会学调研,得出的结论和实际情况都能谬之千里,更何况是那些更重要的数据:比如失业率、GDP增速、购买力、行业发展、投资情况等等。我们普通人如果根据这些数字来投资、国家如果根据这些错误的数据来制定政策,你觉得结果会怎么样?想想都是件很可怕的事情。
那么大数据能够帮助我们看清事实真相吗?怎么获取这些数据?数据量越大越好吗?如何正确地解读数据呢?Seth在他的书里,提供了一些让人脑洞打开的案例。
可以打败高盛的大数据公司
每个月特定的一个周五,都是包括高盛在内的华尔街各大金融机构最为忙碌的时间点。大部分人早上7点就会到公司,忐忑地等待着一个数字在彭博终端上蹦出来,他们好第一时间进行市场操作。
这个数字就是每个月的失业率。
中国人可能不太理解,这个数字在美国的重要性就相当于是每年中国的GDP增速,所有的国家财政政策、金融政策等都会根据这个数字进行调整,金融市场自然也会跟着波动。
但是因为失业率的收集方法很古老,而且还有时延,所以往往是就算这个月情况有所好转,但是得到数字显示失业率很难看,那么政策就要调整。这个滞后性有时是灾难性的。
现在都21世纪了,大数据的时代,有什么办法可以让这个古老的统计方法改进一下吗?
谷歌的科学家们已经可以早于高盛和美国白宫,拿到经济数据了。他们通过大量的数据分析,发现经济好、房价涨的时候,人们普遍搜索的关键词是
“新房的施工队”、“房贷比率”、“优惠的房贷利息
”等,
而经济差、房价跌的时候,人们搜索的关键词是
“快速卖房流程”、“资不抵债”、“抵押贷款减免救
济”等等。
这些实时性的搜索,远比美国官方统计的数据更能反映真实情况。
话说回到“失业率”上来。
谷歌的科学家们发现,失业率有上升的迹象,那么有几个关键词的搜索频率就会增长。当然不是“新工作”、“失业办公室”,搜索最多的居然是色情网站!
这个正常人乍一听要脸红的事情,居然是很多失业的人搜索最多的地方。不过想想也对,这些人正好有大把的空闲时间,而且经济还没有完全衰退的迹象,所以他们觉得借失业给自己放个假,过几天再去找工作也好。而等到美国白宫和华尔街拿到失业率的上升数据,那至少是一个月之后的事情,政策出台又得一段时间。
Seth在此总结了一下,他认为大数据的价值并不在于“大”,而在于数据可否给你提供新的信息,这些信息是以往从来没有被收集和发现的。
大数据如何帮我们发财致富?
我们来看一个古老的行业,赛马。赛马可以说是贵族运动,尤其是购买名马,动辄上百万美元一匹。但是赛马也是博彩业,获得冠军的马能够为主人迎来更加丰厚的奖品。
如何能花小价钱买到好马,则是赚钱的关键。
根据我们的常识,衡量好马的标准就是它的血统和外表,如果它是冠军的后裔、又长得很威风,那么自然出价就高。但是有人不这么认为。Jeff Seder就是赛马界的另类和传说。
这位以优异成绩本科毕业于哈佛大学,又在哈佛念了法律和商科的学霸级人物,发现自己并不喜欢华尔街无聊的工作,他还是热爱乡下自由的生活以及赛马。所以,他辞职回家创业。学霸自然跟那些文化水平不高、又保守的传统赛马界人士完全不同,他根本不看血统,也不太在意外表,除非影响正常的观感。
经过多年的精心研究和分析,
Jeff Seder找到了一套独特的识千里马的办法,而且屡试不爽,他的公司现在非常赚钱。
Jeff向Seth透露,为了识别千里马,他收集了很多数据,包括通过录像研究马的血统、马跑步的姿势、马腿的大小、还有马的鼻孔大小等等,能想到的他都试验过,结果是没用。在他进入这个行业的第12年,Jeff忽然开窍了,
他决定看看马的内脏大小是不是会影响赛马的成绩。结果他发现马的心脏大小、尤其是左心室的大小,直接决定了马的成绩。
为此,他还自己研制了一个特别测听器来检测马的心脏大小。当然,对于一匹好马而言,心脏大是关键,但其他脏器也不能小。
这个赛马的例子可能离我们有点远,不是每个人都可以靠赛马赚钱。那么葡萄酒是不是就离我们近一些呢,毕竟到处都是82年的拉菲,不买也得会识货呀。为什么是82年的拉菲值钱,那么81年的不是更好吗?大数据能否告诉我们一个简单粗暴的办法来看懂葡萄酒,以免我们上当受骗呢?或者教我们买到值得收藏的葡萄酒呢?
果然还有。又是一位学霸研究出来的。这位是普林斯顿大学的经济学教授Orley Ashenfelter。这位教授非常爱喝葡萄酒,大约十几年前,他花了大价钱从波尔多的酒庄买了真的葡萄酒。但是他很困惑的是,
为什么都是一个庄园的葡萄酒,有些好喝、有些很难喝呢?关键价钱都是一样的啊,怎么样才能只买好喝的葡萄酒呢?
后来,教授的朋友,也是一位研究酒类的记者告诉他,酒的好坏跟当年的天气有关系。这就是为什么82年的拉菲最好,因为那一年波尔多的天气非常适合酿造葡萄酒。这激起了教授做学术的好奇心,经济学教授打算仔细研究并量化一下好天气,这样下次就可以买到好喝的葡萄酒了。
Ashenfelter教授真的不懈地找到了过往的天气,还有葡萄酒拍卖的价格,经过一系列量化分析,他居然得出了一个数学公式!
葡萄酒的价格=12.145+0.00117*当年冬季降雨量+0.0614*成长季节的平均温度-0.00386*收获时的降雨量。
Ashenfelter教授说从此他买的葡萄酒都味道不错。如果大家对葡萄酒感兴趣,不妨拿这个公式检验检验。
放之四海而皆准的大数据分析方法
可能你会说上面举的几个例子都太个案了,只是针对某一类的具体问题有用,那么有没有一个放之四海而皆准的、又经得起各方面考验的大数据分析方法呢?