专栏名称: 极客公园

科技创新者的大本营。汇聚优秀的产品报道、评测视频和高质量的线下活动。

扎克伯格被千夫所指的源头，跟人们不太懂的算法有关

极客公园 · 公众号 · 科技媒体 · 2016-11-26 17:21

正文

极客公园微信号：geekpark

推荐算法

在过去几周里，扎克伯格的日子恐怕都不太顺心。

在这届前所未有的美国大选落幕后，陷入失望和沮丧的人们纷纷指责 Facebook 在「川普上位」这件事中起到推波助澜的作用。原因在于 Facebook 对希拉里的「假负面」消息置之不理，而它的病毒式扩散影响到了选民判断。

然而这家科技公司从未承认过自己的媒体属性。尽管在皮尤的最新调查中，它已经成为 60% 以上的美国人获取新闻的主要来源。

人们第一次大规模地将目光聚焦在这些流量大户首页的个性化 feed 流中，并深刻感受到了「算法扭曲场」在真实生活中的威力。虽然算法并非 Facebook 陷入当前窘境的唯一因素，但它隐藏在你连接世界的社交关系中，对人们的信道施加影响。了解算法如何工作，已经成为互联网时代的一种「民主权利」。

在回答「为什么个性化 feed 如此重要」时，扎克伯格曾说：

「你对家门口一只濒临死亡的松鼠的关心，也许更甚于非洲难民。」( A squirrel dying in front of your house may be more relevant to your interests right now than people dying in Africa.）

Google、Netflix、Amazon、今日头条……在如今大多数人所依赖的内容、电商、工具产品中，你会渐渐看到更多自己感兴趣的、订阅相关的、点击过的、长时间阅读的、朋友或与你拥有类似特征人群所看到的东西。

简单来说，这些科技公司的产品很早以前就开始与纸媒、电视台、门户网站或所有按照时间线排序的「媒体」划清界限了。

在产品使用上，首先它需要交互，其次它对每个人来说都不一样。而在产品个性上，它的主要面貌就是「迎合」： 只喂用户爱吃的东西，试图增加活跃度和停留时间。

具体表现是，很多第一次使用个性化推荐产品的人对它嗤之以鼻，「看起来它并不了解我要什么」——在你还没有付出时间成本的前提下，是的，确实是这样。但在机器追踪到你的有效数据之前，它呈现的是大多数人感兴趣的东西。

平凡和粗野，一点儿也不高贵。这也许就是互联网多数时候的面貌，不管你是厌恶还是毫无感知。

好的，欢迎进入算法的世界。我们是时候聊聊这位「新时代的守门人」了。

Facebook 究竟是如何推荐信息的？

一个大前提是，推荐系统的本质是帮助「用户」连接「物品」（这里的物品可以指内容、商品、人等等）。只有当数据足够多，且足够有效时，整个推荐系统才有意义。

根据去年 6 月 Facebook 官方公布的信息，他们使用的是分布式迭代和图像处理平台 Apache Giraph 和推荐系统最经典的算法：协同过滤 (Collaborative filtering) 。其中，EdgeRank 算法是一个重要里程碑。

Facebook 的 EdgeRank 是信息流 (Timeline) 推荐的代表，它决定了每个用户的首页显示什么信息。EdgeRank 隐藏「无聊的东西」。

当第一次登入 Facebook，你看到的是朋友们最近的动态。用户的每一个动作（上传一次状态、评论朋友的动态、为照片打标签、加入一个粉丝俱乐部、授权加入一个活动等）都被称为「边」(Edges) 。

但如果你要看完所有人的动态，也许就很有负担。为此 Facebook 写了这个「量边」(EdgeRank) 的算法，预测你对动态感兴趣的程度，动态的评分越高，位置就越靠前，以此完成对每个用户 feed 流的「清洗」。

当然这是比较用户导向的说法。精准的广告投放也是推荐系统的关键应用，它决定社交网站的商业化能力。在 Facebook 的最新一季度财报中，广告收入已经占到了 97%。 目前的个性化推荐产品都坚信这个未来：当推荐足够对味，穿插其中的精准广告就可以成为一种舒心的服务。

在这套算法中，包含了轻微的「随机因素」(randomization elements) 。因为扎克伯格有次在采访中说，当用户发现算法太了解他们的时候，人们会感到恐惧。

除此之外，它还包含「关键词聚合」功能。News Feed 的发明者之一 Ken Deeter 在 Quora 上简单谈了下这个问题：

「我们基于实体抽取的公开语料对语言建模，利用这些数据我们可以提取不同信任度 (various levels of confidence) 的话题。第二层的基础设施会利用多维数据提高它的准确性。对于特定对象，我们也有些启发式算法 ( some heuristics) ，它们在抽取系统中过滤噪音，并决定什么更有报道价值。」

这种「兴趣竞争」有多可怕？2007 年，一位 Facebook 工程师透露，「只有 0.2% 的内容有资格在 feed 流中露脸，AI 视角和系统视角会共同决定哪些是让人印象深刻的东西，」，堪比新时代的「信用评级机构」。

无趣的东西是无法「贿赂」算法的。唯一的办法就是把自己在 Facebook 上塑造成一个万人迷，粉丝们蜂拥而至，点赞和评论。

那么，作弊有没有用呢？最近，Amazon 就开始对那些「具有奖励性质的评论」开刀了。类似「好评返现」的招数如果损害到了消费者判断，这些平台也不会蠢到袖手旁观。

在 2010 年的 Facebook F8 大会上，他们公布了 EdgeRank 算法的三个构成因素：

1. 亲密度（Affinity Score）

亲密度衡量你对「边」的互动程度。你和一个好哥们有 50 个共同好友、经常互相写评论……那么 Facebook 就会倾向多给你看到他的动态。

在互动中，强度、你对互动者的熟悉程度、时间间隔都是比较重要的。

在这里可以看到，Facebook 倾向于依据「直接事实」做判断。如果你属于那种「身体比较不诚实的」，或者「消极的旁观者」，那就可能要出问题。

以及，

同为「评论」，你高于你的朋友，你的朋友高于你朋友的朋友；
如果你与过去互动频繁的朋友渐渐疏远了，那他的影响力就会变弱；
亲密度是单向的：我把朋友当哥们儿，不代表他也这样想。

2. 边的权重（Edge Weight）

每种「边」都有不同的默认权重。比如评论的权重就高于点赞。Facebook 倾向于把更能「迷倒」你的东西赋予更高的权重，就像图片和视频就高于文字链接。

但每个人又不同。如果你只评论文字链，而忽略图片和视频，那么文字链权重可能就高于那些声色犬马的东西。

同时，你的「边」来源也将影响权重。比如，你通过广告而关注某个公共主页的权重，就低于你去直接搜索。

此外，Facebook 为了推广某些新功能，新功能的权重也会在初期适当提高。

3. 新鲜度（Time Decay）

旧闻不受欢迎。EdgeRank 的动态评分不会让你看到在「整个时间长河」中最受欢迎的东西，它的面貌永远是「当下」的。同时，登陆间隔时间、频率都有影响。使用越频繁，新鲜度就越明显。

但在 2013 年，Facebook 调整了此种「腐烂」 (decay) 因子（因为当你错过了某些消息，不代表那些消息是不相关的)，并增加了「按照时间线排列」的选择。

总结一下，EdgeRank 算法的大致思路：如果一个 story 被你熟悉的好友最近产生过重要的行为，它在 feed 流的排序中就有较高权重。

看起来并不是太高深。但是，引入机器学习的 EdgeRank 就不可同日而语了。

2013 年前后，Facebook 开始强调他们做 feed 流的目标：让对的人在对的时间看到对的东西，并找了数千人做调查「什么是好内容」。

为了改进 EdgeRank，找到「高质量的内容」，他们加入了机器学习。

2014 年，深度神经网络的成熟带来了机器学习的突破性进展。算法从 A 事实导出 B 结论的时代过去了，现在，A 事实可以导出 B、C、D、E、F 结论，发现数据中的关联，并自我学习和进化。

曾任新浪微博资深算法工程师的陈开江表示：「引入机器学习的 EdgeRank 算法前前后后一共考虑了 10 万+的变量（模型的特征空间应该会更高）。它在原来 EdgeRank 的基础上，更加细致地定义了不同层级的亲密度，并用深度神经网络理解图片内容和文字内容」。这些变量涵盖进了「适宜度、相关性、可信度」等因素。

用户增长和数据的爆发带来持续的挑战。

2014 年，Facebook 听取用户抱怨，宣布将采取措施打击「诱骗点击」行为，计算分析用户停留时间；
2015 年，他们宣布整治「欺诈」，当多名用户举报此条信息「造谣」时，平台就会降低它的分发度；
7 月，Facebook 推出「优先看」功能，除了选择「不看谁」，你还可以选择优先看到的内容；
2016 年，Facebook 表示将加强好友和家人发表的或评论过的消息权重，并向用户发起了一个「feed 质量反馈」计划，用 1 到 5 分标记「完全无价值」到「十分有价值」，从而获得更准确的个体反馈；
11 月，他们宣布与第三方合作，禁止将广告接入假新闻网站，这也是最近 Facebook 在风口浪尖下的一个举措。

结语

从 2006 年诞生至今，NewsFeed 已经迭代了十年。Facebook 团队意识到， 数据不可能将故事完整还原，算法永恒存在缺陷。 今天看着起作用的，明天就可能被证明是谬误。

当你分享一篇文章的时候，你是出于喜欢、批评的心情，还是单纯为了做广告？人类如此复杂和多变，有时候自己也不知道自己要什么。

「但我对此保持乐观。目前的数据显示，如果我们做足够多的调查，并给予用户充分选择的权利，整体的活跃度和增长度都在呈现上升态势。」news feed 产品总监 Adam Mosseri 说。

如何看待算法与人的关系？推荐系统未来走向何处？摆在眼前的可能是一道社会学难题。

我们将持续关注这个议题，欢迎算法工程师、产品经理和个性化推荐产品使用者们说说自己的想法。

题图 | Techvibes

编辑 | Melody

扎克伯格被千夫所指的源头，跟人们不太懂的算法有关

正文

Facebook 究竟是如何推荐信息的？

结语

请到「今天看啥」查看全文