题目的观点是我在吴军的某本书上看到的,当时内心咯噔了一下。我一直在思考到底什么是大数据,这句话直中要害。这么牛的观点,我一般不太相信是一个人直接领悟出来的,背后一定会有其它来源依据,今天终于被我找到了。
在看《暗时间》时,里面讨论了一些信息论相关的内容,于是就尝试搜索信息论和不确定性的关系,结果发现香农说了这么一句话:“信息是用来消除不确定性的东西”。信息论的鼻祖果然是鼻祖,一句话解释了信息。
去年我在看《硅谷百年史》时,顺便研究了从二进制到计算机的演变过程,当时有一个问题:二进制都可以用电路来表示,那么怎么证明两者是等价的呢?结果我顺着这个问题发现香农的硕士论文就是写的这个东西。想想我自己的硕士论文,只能说人和人还是有差别的。
我本科和研究生都是计算机专业,并没有学过《信息论》,这门课应该是通信专业的必修课。我猜想信息和不确定性这个疑问,对通信专业的学生来说,根本就不是这个问题。当然,通信专业的学生可能也不能很好的理解大数据。有时间我会把这门课自学一下,来消除一下我对熵这种概念的恐惧,至少现在还没迈过这个坎。
什么是不确定性?比如来说,你不知道回家的路上是不是拥堵,这就是一种不确定性。如果通过打开百度地图查看实时路况,你就知道了结果。这样,百度地图就给你提供了信息,从而消除了这种不确定性。
显然,大数据只是信息的一种,既然信息是用来消除不确定性的,大数据自然就是消除不确定性的了。我思考这个问题,还是为了搞清楚大数据本身的价值。我的职业生涯都是建立在其之上,可不想它本身是站不住脚的。
从消除不确定性的视角来解释大数据的价值,就直接很多。
我把数据的价值归结为两点,一是驱动决策,比如产品怎么改进更好,运营活动开展的效果如何;二是驱动产品智能,比如个性化推荐、精准广告等,现在都统称为 AI,都是将准备好的数据套上一定的策略算法,将结果反馈到产品上,让产品具有学习能力,即智能。
对于以上这两点,大数据分别消除了决策的不确定性,和针对个体提供服务的不确定性。
End.
作者:桑文锋 (中国统计网特邀认证作者)