专栏名称: 极客公园
科技创新者的大本营。汇聚优秀的产品报道、评测视频和高质量的线下活动。
目录
相关文章推荐
新浪科技  ·  【#极越中层曝夏一平管理内幕# ... ·  4 天前  
新浪科技  ·  【#董宇辉近日成立3家新公司#】天眼查App ... ·  6 天前  
36氪  ·  留给杨植麟「排雷」的时间不多了 ·  6 天前  
51好读  ›  专栏  ›  极客公园

扎克伯格被千夫所指的源头,跟人们不太懂的算法有关

极客公园  · 公众号  · 科技媒体  · 2016-11-26 17:21

正文

 极客公园微信号:geekpark

推荐算法 

在过去几周里,扎克伯格的日子恐怕都不太顺心。

在这届前所未有的美国大选落幕后,陷入失望和沮丧的人们纷纷指责 Facebook 在「川普上位」这件事中起到推波助澜的作用。原因在于 Facebook 对希拉里的「假负面」消息置之不理,而它的病毒式扩散影响到了选民判断。

然而这家科技公司从未承认过自己的媒体属性。尽管在皮尤的最新调查中,它已经成为 60% 以上的美国人获取新闻的主要来源。

人们第一次大规模地将目光聚焦在这些流量大户首页的个性化 feed 流中,并深刻感受到了「算法扭曲场」在真实生活中的威力。虽然算法并非 Facebook 陷入当前窘境的唯一因素,但它隐藏在你连接世界的社交关系中,对人们的信道施加影响。了解算法如何工作,已经成为互联网时代的一种「民主权利」。

在回答「为什么个性化 feed 如此重要」时,扎克伯格曾说:

「你对家门口一只濒临死亡的松鼠的关心,也许更甚于非洲难民。」( A squirrel dying in front of your house may be more relevant to your interests right now than people dying in Africa.)

Google、Netflix、Amazon、今日头条……在如今大多数人所依赖的内容、电商、工具产品中,你会渐渐看到更多自己感兴趣的、订阅相关的、点击过的、长时间阅读的、朋友或与你拥有类似特征人群所看到的东西。

简单来说,这些科技公司的产品很早以前就开始与纸媒、电视台、门户网站或所有按照时间线排序的「媒体」划清界限了。

在产品使用上,首先它需要交互,其次它对每个人来说都不一样。而在产品个性上,它的主要面貌就是「迎合」:只喂用户爱吃的东西,试图增加活跃度和停留时间。

具体表现是,很多第一次使用个性化推荐产品的人对它嗤之以鼻,「看起来它并不了解我要什么」——在你还没有付出时间成本的前提下,是的,确实是这样。但在机器追踪到你的有效数据之前,它呈现的是大多数人感兴趣的东西。

平凡和粗野,一点儿也不高贵。这也许就是互联网多数时候的面貌,不管你是厌恶还是毫无感知。

好的,欢迎进入算法的世界。我们是时候聊聊这位「新时代的守门人」了。

Facebook 究竟是如何推荐信息的?

一个大前提是,推荐系统的本质是帮助「用户」连接「物品」(这里的物品可以指内容、商品、人等等)。只有当数据足够多,且足够有效时,整个推荐系统才有意义。

根据去年 6 月 Facebook 官方公布的信息,他们使用的是分布式迭代和图像处理平台 Apache Giraph 和推荐系统最经典的算法:协同过滤 (Collaborative filtering) 。其中,EdgeRank 算法是一个重要里程碑。

Facebook 的 EdgeRank 是信息流 (Timeline) 推荐的代表,它决定了每个用户的首页显示什么信息。EdgeRank 隐藏「无聊的东西」。

当第一次登入 Facebook,你看到的是朋友们最近的动态。用户的每一个动作(上传一次状态、评论朋友的动态、为照片打标签、加入一个粉丝俱乐部、授权加入一个活动等)都被称为「边」(Edges) 。

但如果你要看完所有人的动态,也许就很有负担。为此 Facebook 写了这个「量边」(EdgeRank) 的算法,预测你对动态感兴趣的程度,动态的评分越高,位置就越靠前,以此完成对每个用户 feed 流的「清洗」。

当然这是比较用户导向的说法。精准的广告投放也是推荐系统的关键应用,它决定社交网站的商业化能力。在 Facebook 的最新一季度财报中,广告收入已经占到了 97%。目前的个性化推荐产品都坚信这个未来:当推荐足够对味,穿插其中的精准广告就可以成为一种舒心的服务。

在这套算法中,包含了轻微的「随机因素」(randomization elements) 。因为扎克伯格有次在采访中说,当用户发现算法太了解他们的时候,人们会感到恐惧。

除此之外,它还包含「关键词聚合」功能。News Feed 的发明者之一 Ken Deeter 在 Quora 上简单谈了下这个问题:

「我们基于实体抽取的公开语料对语言建模,利用这些数据我们可以提取不同信任度 (various levels of confidence) 的话题。第二层的基础设施会利用多维数据提高它的准确性。对于特定对象,我们也有些启发式算法 ( some heuristics) ,它们在抽取系统中过滤噪音,并决定什么更有报道价值。」

这种「兴趣竞争」有多可怕?2007 年,一位 Facebook 工程师透露,「只有 0.2% 的内容有资格在 feed 流中露脸,AI 视角和系统视角会共同决定哪些是让人印象深刻的东西,」,堪比新时代的「信用评级机构」。

无趣的东西是无法「贿赂」算法的。唯一的办法就是把自己在 Facebook 上塑造成一个万人迷,粉丝们蜂拥而至,点赞和评论。

那么,作弊有没有用呢?最近,Amazon 就开始对那些「具有奖励性质的评论」开刀了。类似「好评返现」的招数如果损害到了消费者判断,这些平台也不会蠢到袖手旁观。

在 2010 年的 Facebook F8 大会上,他们公布了 EdgeRank 算法的三个构成因素:

1. 亲密度(Affinity Score)

亲密度衡量你对「边」的互动程度。你和一个好哥们有 50 个共同好友、经常互相写评论……那么 Facebook 就会倾向多给你看到他的动态。

在互动中,强度、你对互动者的熟悉程度、时间间隔都是比较重要的。

在这里可以看到,Facebook 倾向于依据「直接事实」做判断。如果你属于那种「身体比较不诚实的」,或者「消极的旁观者」,那就可能要出问题。

以及,

  • 同为「评论」,你高于你的朋友,你的朋友高于你朋友的朋友;

  • 如果你与过去互动频繁的朋友渐渐疏远了,那他的影响力就会变弱;

  • 亲密度是单向的:我把朋友当哥们儿,不代表他也这样想。

2. 边的权重(Edge Weight)

每种「边」都有不同的默认权重。比如评论的权重就高于点赞。Facebook 倾向于把更能「迷倒」你的东西赋予更高的权重,就像图片和视频就高于文字链接。

但每个人又不同。如果你只评论文字链,而忽略图片和视频,那么文字链权重可能就高于那些声色犬马的东西。

同时,你的「边」来源也将影响权重。比如,你通过广告而关注某个公共主页的权重,就低于你去直接搜索。

此外,Facebook 为了推广某些新功能,新功能的权重也会在初期适当提高。

3. 新鲜度(Time Decay)

旧闻不受欢迎。EdgeRank 的动态评分不会让你看到在「整个时间长河」中最受欢迎的东西,它的面貌永远是「当下」的。同时,登陆间隔时间、频率都有影响。使用越频繁,新鲜度就越明显。

但在 2013 年,Facebook 调整了此种「腐烂」 (decay) 因子(因为当你错过了某些消息,不代表那些消息是不相关的),并增加了「按照时间线排列」的选择。

总结一下,EdgeRank 算法的大致思路:如果一个 story 被你熟悉的好友最近产生过重要的行为,它在 feed 流的排序中就有较高权重。

看起来并不是太高深。但是,引入机器学习的 EdgeRank 就不可同日而语了。

2013 年前后,Facebook 开始强调他们做 feed 流的目标:让对的人在对的时间看到对的东西,并找了数千人做调查「什么是好内容」。

为了改进 EdgeRank,找到「高质量的内容」,他们加入了机器学习。

2014 年,深度神经网络的成熟带来了机器学习的突破性进展。算法从 A 事实导出 B 结论的时代过去了,现在,A 事实可以导出 B、C、D、E、F 结论,发现数据中的关联,并自我学习和进化。

曾任新浪微博资深算法工程师的陈开江表示:「引入机器学习的 EdgeRank 算法前前后后一共考虑了 10 万+的变量(模型的特征空间应该会更高)。它在原来 EdgeRank 的基础上,更加细致地定义了不同层级的亲密度,并用深度神经网络理解图片内容和文字内容」。这些变量涵盖进了「适宜度、相关性、可信度」等因素。

用户增长和数据的爆发带来持续的挑战。

  • 2014 年,Facebook 听取用户抱怨,宣布将采取措施打击「诱骗点击」行为,计算分析用户停留时间;

  • 2015 年,他们宣布整治「欺诈」,当多名用户举报此条信息「造谣」时,平台就会降低它的分发度;

  • 7 月,Facebook 推出「优先看」功能,除了选择「不看谁」,你还可以选择优先看到的内容;

  • 2016 年,Facebook 表示将加强好友和家人发表的或评论过的消息权重,并向用户发起了一个「feed 质量反馈」计划,用 1 到 5 分标记「完全无价值」到「十分有价值」,从而获得更准确的个体反馈;

  • 11 月,他们宣布与第三方合作,禁止将广告接入假新闻网站,这也是最近 Facebook 在风口浪尖下的一个举措。

结语

从 2006 年诞生至今,NewsFeed 已经迭代了十年。Facebook 团队意识到,数据不可能将故事完整还原,算法永恒存在缺陷。今天看着起作用的,明天就可能被证明是谬误。

当你分享一篇文章的时候,你是出于喜欢、批评的心情,还是单纯为了做广告?人类如此复杂和多变,有时候自己也不知道自己要什么。

「但我对此保持乐观。目前的数据显示,如果我们做足够多的调查,并给予用户充分选择的权利,整体的活跃度和增长度都在呈现上升态势。」news feed 产品总监 Adam Mosseri 说。

如何看待算法与人的关系?推荐系统未来走向何处?摆在眼前的可能是一道社会学难题。

我们将持续关注这个议题,欢迎算法工程师、产品经理和个性化推荐产品使用者们说说自己的想法。

题图 | Techvibes

编辑 | Melody


*参考资料(阅读原文可查)

  • edgerank

  • Recommending items to more than a billion people

  • EdgeRank is dead, and other updates about the Facebook News Feed algorithm

  • Who Controls Your Facebook Feed

  • Quora

  • ResysChina

  • Facebook newsfeed algorithm change history

  • 互联网推荐系统漫谈


本文由极客公园原创

转载联系 [email protected]


/ 更多阅读 /