专栏名称: 秦朔朋友圈

秦朔朋友圈是由中国著名媒体人、财经观察家秦朔牵头创立的一个新媒体与专业服务品牌，包括微信公众号、微博、视频节目、音频节目等。内容聚焦于经济、金融和商业领域，关注重点为全球和中国财经商业热点、企业家精神、创新与发明创造、商业文明探索等。

谁“出卖”了你的性生活？

秦朔朋友圈 · 公众号 · 财经 · 2017-06-20 06:52

正文

作者：戈小羊／微信公众号：qspyq2015
这是秦朔朋友圈的第 1353 篇原创首发文章

这是个人人都在撒谎的世界。我们对朋友撒谎、对老板撒谎、对自己的孩子撒谎、对父母撒谎、对医生也撒谎，当然对老婆、老公更要撒谎，甚至对自己撒谎。社会学家的调查问卷早就没办法获得人们的真实想法，他们获得的不过是人们修饰过的、美好的想法和观点；就连决定国家经济政策的重要指标，比如失业率、GDP等都没办法获得货真价实的数据，以此来为国家政策制定作参考，后果可想而知。

那么什么时候人们才会说真话呢？我们如何才能够听到人们的真话呢？前谷歌数据科学家Seth Stephens-Davidowitz在他的新书《Everybody Lies, Big Data, New Data and What the Internet Reveals About Who We Really Are》（ 人人都在说谎，大数据、新数据以及互联网暴露的真实你我，以下简称：《 Everybody Lies》 ）里告诉大家的答案是： 谷歌搜索引擎。 这当然不是帮谷歌做广告。事实上，在加入谷歌之前，Seth就已经利用谷歌推出的Google Trends分析人们的搜索热词，分析大众的真实想法。

Seth本科毕业于斯坦福，从哈佛拿到经济学博士，因为对数据的热爱受邀加入谷歌，现在他在宾大沃顿商学院教授一门数据课程，他也是《纽约时报》的数据专家。他的这本《Everybody Lies》今年5月份才刚刚推出，是Seth这些年大数据分析的最新成果，读起来非常有意思。

Seth说 互联网时代，人们唯一不会撒谎的对象就是搜索引擎。 夜深人静，一个人独坐书房，不可与人言的苦闷、憋屈或者疑问都可以毫无保留地写进搜索框，来寻找答案。人们觉得只需要关机之前，清理一下缓存，就真是“神不知、鬼不觉”了，而事实上，搜索引擎记住了这一切。

Google Trends上可以找到每个词、相关事件的被搜索情况，这比问卷调查得到的数据靠谱多了。比如在一项关于美国成年人性生活的社会学调研中，社会学家根据问卷发现，女性提供的性生活次数和使用的避孕套数量，是一年要用掉11亿个避孕套；而男性提供的数字，则要用掉16亿个避孕套。那么究竟哪个数字比较准确呢？根据尼尔森的调查显示，美国一年出售的避孕套数量在6亿个，远远少于男性和女性提供的数字。 “其实人人都在撒谎，只是程度问题” ，Seth对此如此解释。

Seth通过谷歌的搜索数据不仅佐证了尼尔森的数据，而且进一步发现了社会学家通过调研根本没有发现的问题：美国人的婚姻中存在的最大问题是无性婚姻。根据谷歌的数据，搜索“无性婚姻”的人数比搜索“不幸福婚姻”的人数多了3倍半，是“无爱婚姻”的8倍！这是社会学家通过问卷怎么都发现不了的，因为问卷里只有1%的人承认自己过去一年没有性生活，但实际上这个数字远远大于1%。

一个小小的社会学调研，得出的结论和实际情况都能谬之千里，更何况是那些更重要的数据：比如失业率、GDP增速、购买力、行业发展、投资情况等等。我们普通人如果根据这些数字来投资、国家如果根据这些错误的数据来制定政策，你觉得结果会怎么样？想想都是件很可怕的事情。

那么大数据能够帮助我们看清事实真相吗？怎么获取这些数据？数据量越大越好吗？如何正确地解读数据呢？Seth在他的书里，提供了一些让人脑洞打开的案例。

可以打败高盛的大数据公司

每个月特定的一个周五，都是包括高盛在内的华尔街各大金融机构最为忙碌的时间点。大部分人早上7点就会到公司，忐忑地等待着一个数字在彭博终端上蹦出来，他们好第一时间进行市场操作。 这个数字就是每个月的失业率。 中国人可能不太理解，这个数字在美国的重要性就相当于是每年中国的GDP增速，所有的国家财政政策、金融政策等都会根据这个数字进行调整，金融市场自然也会跟着波动。

但是因为失业率的收集方法很古老，而且还有时延，所以往往是就算这个月情况有所好转，但是得到数字显示失业率很难看，那么政策就要调整。这个滞后性有时是灾难性的。 现在都21世纪了，大数据的时代，有什么办法可以让这个古老的统计方法改进一下吗？

谷歌的科学家们已经可以早于高盛和美国白宫，拿到经济数据了。他们通过大量的数据分析，发现经济好、房价涨的时候，人们普遍搜索的关键词是 “新房的施工队”、“房贷比率”、“优惠的房贷利息 ”等， 而经济差、房价跌的时候，人们搜索的关键词是 “快速卖房流程”、“资不抵债”、“抵押贷款减免救 济”等等。 这些实时性的搜索，远比美国官方统计的数据更能反映真实情况。

话说回到“失业率”上来。谷歌的科学家们发现，失业率有上升的迹象，那么有几个关键词的搜索频率就会增长。当然不是“新工作”、“失业办公室”，搜索最多的居然是色情网站！这个正常人乍一听要脸红的事情，居然是很多失业的人搜索最多的地方。不过想想也对，这些人正好有大把的空闲时间，而且经济还没有完全衰退的迹象，所以他们觉得借失业给自己放个假，过几天再去找工作也好。而等到美国白宫和华尔街拿到失业率的上升数据，那至少是一个月之后的事情，政策出台又得一段时间。

Seth在此总结了一下，他认为大数据的价值并不在于“大”，而在于数据可否给你提供新的信息，这些信息是以往从来没有被收集和发现的。

大数据如何帮我们发财致富？

我们来看一个古老的行业，赛马。赛马可以说是贵族运动，尤其是购买名马，动辄上百万美元一匹。但是赛马也是博彩业，获得冠军的马能够为主人迎来更加丰厚的奖品。 如何能花小价钱买到好马，则是赚钱的关键。

根据我们的常识，衡量好马的标准就是它的血统和外表，如果它是冠军的后裔、又长得很威风，那么自然出价就高。但是有人不这么认为。Jeff Seder就是赛马界的另类和传说。

这位以优异成绩本科毕业于哈佛大学，又在哈佛念了法律和商科的学霸级人物，发现自己并不喜欢华尔街无聊的工作，他还是热爱乡下自由的生活以及赛马。所以，他辞职回家创业。学霸自然跟那些文化水平不高、又保守的传统赛马界人士完全不同，他根本不看血统，也不太在意外表，除非影响正常的观感。

经过多年的精心研究和分析， Jeff Seder找到了一套独特的识千里马的办法，而且屡试不爽，他的公司现在非常赚钱。 Jeff向Seth透露，为了识别千里马，他收集了很多数据，包括通过录像研究马的血统、马跑步的姿势、马腿的大小、还有马的鼻孔大小等等，能想到的他都试验过，结果是没用。在他进入这个行业的第12年，Jeff忽然开窍了， 他决定看看马的内脏大小是不是会影响赛马的成绩。结果他发现马的心脏大小、尤其是左心室的大小，直接决定了马的成绩。 为此，他还自己研制了一个特别测听器来检测马的心脏大小。当然，对于一匹好马而言，心脏大是关键，但其他脏器也不能小。

这个赛马的例子可能离我们有点远，不是每个人都可以靠赛马赚钱。那么葡萄酒是不是就离我们近一些呢，毕竟到处都是82年的拉菲，不买也得会识货呀。为什么是82年的拉菲值钱，那么81年的不是更好吗？大数据能否告诉我们一个简单粗暴的办法来看懂葡萄酒，以免我们上当受骗呢？或者教我们买到值得收藏的葡萄酒呢？

果然还有。又是一位学霸研究出来的。这位是普林斯顿大学的经济学教授Orley Ashenfelter。这位教授非常爱喝葡萄酒，大约十几年前，他花了大价钱从波尔多的酒庄买了真的葡萄酒。但是他很困惑的是， 为什么都是一个庄园的葡萄酒，有些好喝、有些很难喝呢？关键价钱都是一样的啊，怎么样才能只买好喝的葡萄酒呢？

后来，教授的朋友，也是一位研究酒类的记者告诉他，酒的好坏跟当年的天气有关系。这就是为什么82年的拉菲最好，因为那一年波尔多的天气非常适合酿造葡萄酒。这激起了教授做学术的好奇心，经济学教授打算仔细研究并量化一下好天气，这样下次就可以买到好喝的葡萄酒了。

Ashenfelter教授真的不懈地找到了过往的天气，还有葡萄酒拍卖的价格，经过一系列量化分析，他居然得出了一个数学公式！

葡萄酒的价格=12.145+0.00117*当年冬季降雨量+0.0614*成长季节的平均温度-0.00386*收获时的降雨量。

Ashenfelter教授说从此他买的葡萄酒都味道不错。如果大家对葡萄酒感兴趣，不妨拿这个公式检验检验。

放之四海而皆准的大数据分析方法

可能你会说上面举的几个例子都太个案了，只是针对某一类的具体问题有用，那么有没有一个放之四海而皆准的、又经得起各方面考验的大数据分析方法呢？

谁“出卖”了你的性生活？

正文

请到「今天看啥」查看全文