专栏名称: 大数据文摘
普及数据思维,传播数据文化
目录
相关文章推荐
数据派THU  ·  清华软件论坛 | ... ·  5 天前  
数据派THU  ·  【博士论文】基于车载3D ... ·  5 天前  
软件定义世界(SDX)  ·  10%的企业正开始数字化转型 ·  1 周前  
软件定义世界(SDX)  ·  【PPT】2024中国企业出海蓝皮书 ·  1 周前  
51好读  ›  专栏  ›  大数据文摘

活在终极算法的世界,是怎样一种体验?

大数据文摘  · 公众号  · 大数据  · 2017-04-08 21:46

正文


想想你记录在世界上所有计算机里的数据:你的邮件、办公文档、文本;你发的微博、微信、推特;你的网页搜索、点击、下载、购买记录;你的信用卡、传真、电话、健康档案;你闲逛时被手机记录下来的信息;你拍过的所有照片;监控摄像机里的简短片段;你的谷歌眼镜片段。未来想给一个人写传记,他的“数据排放”可能是最准确、最详尽的素材。


当今世界上还没有哪种算法能利用所有这些数据,甚至美国国家安全局也不能。即使有,该算法也不知道如何将数据变成逼真的你。假设你带着自己的所有数据,然后把数据交给未来的终极算法会怎样呢?

 

模型,另一个你


终极算法已经包含所有我们教过它的所有东西。它会学习关于你的一个模型,而你只要动动手指就能操控那个模型,可以把它揣在口袋里,随意对它进行检查,然后将它用于你喜欢的东西。它也是一面数码镜子,不仅能够显示你的外表,还能显示所有关于你的、能观察到的东西——一面栩栩如生,并能和你对话的镜子。你会问它什么问题?你可能不会喜欢它的某些回答,但这就更有理由来好好考虑这些答案;有些答案可能会给你新的想法和方向。你的终极算法模型甚至可以帮你成为更好的人。


除了自我提升,你的模型还可以帮你推荐书、电影,它推荐的比亚马逊能想到的还要好。它可以对你的邮件、发帖、推特信息进行过滤,还能适时代你回复这些消息。它还会为你处理生活琐事,比如查看信用卡账单、拒绝乱收费、更新订阅、填写纳税申报单。它会为你的疾病找到治疗方法,由你的医生来管理该方法,并从医药公司预订。它会让你留意到好的工作机会、提议度假胜地、建议你该为哪个候选人投票、寻找潜在的约会对象。另外,你和约会对象成功配对以后,它会与你约会对象的模型合作,为你们两人挑选彼此都喜欢的餐厅。这时事情才真正开始变得有意思起来。

 

未来的网络空间将是一个巨大的平行世界


你不是唯一拥有这种“模型”人(你的模型24小时照你的要求办事),每个人都会有自己的详细模型,这些模型会一直互相对话。如果你正在找工作,而X公司正在招聘,X公司的模型会对你的模型进行面试。这很像一场真实、身临其境的面试,但整个过程却只花不到一秒钟。未来你在领英账号上点击“找工作”,会马上进行全球所有公司的工作面试,虽然远,但与你的参数(专业、地点、薪资等)匹配,领英会马上反馈最佳公司列表,你可以从中挑选想进行细谈的公司。


约会也是一样,你的模型会代你进行几百万次约会,所以你就不必了。星期六,你会在派对上认识最佳约会人选,你知道自己也是对方的最佳约会人选——当然,你也知道对方其他的约会人选也在屋里。这肯定是一个有意思的夜晚。


在终极算法的世界里,“我的人会联系你的人”会变成“我的模型会联系你的模型”。完成交易、谈判条款、做好安排,这些都会在你举起手指头之前完成。你的“模型”就是指引你生活的力量,它会去你想去的地方,但让你花费的时间比较少。


当你找到汽车、房子、医生或者工作之后,这个过程并没有结束——你的“模型”会继续从经历中学习东西,就像你一样。它弄清楚在面试、约会、找房子的过程中,什么能起作用、什么不能;它代表你和人们、组织进行互动,并学习关于它们的东西,然后从你与他们的真实互动中掌握技能(这一点更重要)。它预测爱丽丝会是你很棒的约会对象,但你时间不太方便,因此它会假设可能的原因,并在你的下一轮约会中进行验证。它会把最重要的发现与你分享(“你觉得自己喜欢X,但实际上你更倾向于Y”),将你各种各样的住酒店经历和这些酒店在点评网站上的评价相比较。它不仅掌握网上哪个商家值得信赖,还要学会如何解码那些不那么值得信赖的商家所说的话。


你的“模型”有一个世界模型——不只是一般的世界,还指与你产生关联的世界。当然,其他所有人也会有自己不断演进的世界模型。一段相互关系中的每一方都会向世界模型学习,并将其学到的东西运用到下一段相互关系中。你有每个和你有过相互关系的人以及组织的模型,而他们也会有你的模型。随着模型的改善,它们之间的相互关系就会变得越来越像你在真实世界中的相互关系一样——只是速度高出几百万倍,并且只存在于硅片中。


未来的网络空间会是一个巨大的平行世界,只会选择最有希望的东西在真实世界中进行试验,它就像一种新的全球性意识和人类身份。

 

你应该跟谁分享数据?


当然,你独自一人了解这个世界会比较慢,而如果100万人了解一家公司或一种产品,速度就会比单人速度快得多。这就需要分享。那么你应该和谁分享数据?这也许是21世纪最重要的问题了。


当今你的数据可以分成四种:

  • 第一种,是你和所有人分享的数据,包括Yelp、亚马逊、易趣网的反馈评分、领英的简历、博客、推文等。这类数据价值巨大。唯一的问题在于,掌握这些数据的公司不一定会允许对它们进行批量下载,从而用于构建模型。

  • 第二种是你和朋友或者同事分享的数据,比如,你和你朋友都会利用facebook来分享各自的状态和照片。渐渐地,facebook对于世界的了解比任何人都要多。如果它有更好的算法,就能了解得更多,而这些算法每天都会进步。作为回报,它会为你的分享提供基础结构,这就是你使用facebook所做的交易。随着学习算法的改善,它由数据产生的价值会越来越大,有些价值会以更相关的广告、更优质的服务的形式回馈你。唯一的问题在于,facebook也可以随意使用你不感兴趣的数据和模型,你却无法阻止它。

  • 第三种是你和各种公司(不论是否有意)分享的数据,包括如今你在线上、线下做的许多事情。也许你没注意到,这些公司都在疯狂收集你的数据。这也难怪,它们是通往你的世界、你的钱包、你的投票甚至你的心灵的大门。但是每个人只能拥有它的一小部分:谷歌掌握你搜索的内容,亚马逊知道你网购的东西,美国电话电报公司会看到你的通话记录,苹果知道你下载的音乐,西夫韦懂得你购买的杂货。没有人能够了解到完完整整的你。

  • 最后一种,就是你不与别人分享的数据。这里也存在一个问题,即也许你应该分享它。我们见过的一个例子就是癌症病人,他们可以通过分享肿瘤的基因组和治疗史来为治愈癌症做贡献。分享的好处远远不止这点。所有关于社会和政策的各种问题也许都可以通过了解我们每天产生的数据来得到解决。这并不意味着让别人窥探你的私人生活,而是说要让他们看到已经掌握的模型,而这个模型应该只包含统计信息。因此,在你和他们之间,需要一位可靠的数据经纪人,保证你的数据不会被滥用,也没有哪个免费使用者会在不分享数据的情况下就享受到好处。


总之,所有四类数据的分享都有问题。这些问题有一个共同的解决办法:新型数据公司。

 

未来最具价值的公司之一

新型数据公司


新型公司与你的数据的关系,就像银行和你的钱的关系一样。银行不会偷你的钱(有也是极少数)。它们应该明智地对它进行投资,而且你的存款已经过FDIC(联邦存款保险公司)承保。


“新型数据公司”会对你的网上互动进行匿名处理,并通过服务器确定这些互动路线,然后通过其他用户将这些互动集合起来。它会把你这辈子所有的数据储存在一个地方,会对关于你和你的世界的完整模型进行学习,并对其进行持续更新。它会代表你使用模型,并一直做你要做的事,发挥模型的最大能力。公司对于你的基本承诺是,你的数据和模型绝不会在损害你利益的情况下被使用。这样的保证真的过于简单,毕竟你本身就无法保证你绝不会做损害自己利益的事。但公司的存在就取决于这样的保证,就像银行的存在取决于它保证不会弄丢你的钱一样,因此你应该信任这家公司,就像你信任你的银行一样。


这样的公司会很快成为世界上最有价值的公司之一。当今你的简介也许一分钱就能买到,但一个用户对于互联网广告业的价值可能是每年1200美元,谷歌掌握的你的那部分信息价值约20美元,facebook的是5美元,等等。除此之外,还没有谁能全部拥有各部分的数据,而且完整的数据比各部分数据的总和要多。利用这种数据创建一家《财富》500 强公司并不会需要很多费用。


当然,当前的一些公司想拥有数码的你,谷歌就是其中一个。谢尔盖·布林说:“我们想让谷歌成为你大脑的第三个组成部分。”但是,虽然诸如谷歌和facebook之类的公司处于领先地位,但它们并不适合作为你的数码家园,因为它们存在利益冲突。它们通过广告分析来谋生,因此得权衡你的利益和广告商的利益。你不会允许自己大脑的第一或者第二组成部分各有忠心,第三组成部分就更别提了。

 

未来的“工会”

数据联盟


公司和个人相比,收集和使用数据的能力要强大很多,这导致了权利上的不平衡。20世纪需要工会来协调工人与老板之间的权利,21世纪出于同样的原因也需要数据联盟。


数据越有价值,就越能从中掌握更好、更有用的模型,不对称也就越严重。数据联盟让其成员与公司就其数据使用进行平等交易。也许工会能够使活动开展起来,并巩固其成员身份,方法就是为其成员开启数据联盟。但工会是根据职业和地理位置组织起来的,数据联盟就比较灵活——加入和你有很多共同点的人群,那样掌握的模型会更有用。请注意,加入数据联盟并不意味着可以让其他成员看到你的数据,这仅仅表示让每个人都能利用通过共享数据掌握的模型。你的数据对世界的影响力和你的投票一样,或者会更大,因为你只会在选举日去投票处投票,其他时候,你的数据就是你的选票。站起来,表明你的立场!

 

 

摘自佩德罗·多明戈斯《终极算法》




往期精彩文章


点击图片阅读文章

小白学数据 | 除了计算大姨妈周期,时间序列分析还有什么用