Tumblr,一款很有特色的社交 App,自诞生以来,就吸引了不少社交达人下载使用。不少人只知道这款 App 简约易用,却不知道这背后应用了怎样复杂的技术。2017 年 Arch Summit 全球架构师峰会北京站,Tumblr 数据科学工程总监李北涛先生将出席,为我们解读 Tumblr 背后的技术。
更多干货内容请关注微信公众号“AI 前线”,ID:ai-front
InfoQ 对李北涛先生进行了专访,当 AI 遇上社交网络,将会碰撞出怎样的火花?
AI 时代,人工智能已经一点一滴渗透进了人们的日常生活。除了那些看上去高大上的“黑科技”产品,比如无人车,智能机器人之外,每天都离不开的社交网络 App,为了给用户带来更好的使用体验,也下了不少功夫,用 AI 来武装自己。
Tumblr 就是这样一款 App,在应用了当下很火的相关性反馈技术之后,一天之内的推荐效率甚至提高了 100% 以上。
据 Tumblr 数据科学工程总监李北涛先生介绍,相关性反馈,即 Relevance Feedback,它的原理其实很简单:主要是通过用户反馈优化搜索排序。用户反馈数据,特别是海量用户的反馈数据,包含巨大的价值。Tumblr 将这些数据实时的应用在推荐系统的优化上,才能够达到如此惊艳的成果。
在此之前,李北涛说,Tumblr 的算法还比较基本,也因为没有使用海量用户反馈信息,所以基本比较固定。在加入了实时反馈信息之后,算法相当于可以自动进化,用户信息越多,进化越快。这和 Reinforcement Learning (加强学习)也有联系。相当于让算法在实践中不停尝试,让它不停学习,自动优化。
而针对不同的应用场景,Tumblr 做出的推荐也是不同的,譬如当用户离开 Tumblr 一段时间之后,推荐系统会根据用户在离开之前的使用情况进行预测,当用户返回之后,在首页出现的“当你离开”标签下,会推荐一些经过预测用户应该会感兴趣的内容。李北涛表示,推荐的内容有时候是通过算法进行排序的,不一定完全按照时间排序,这也就是为什么用户在首页看到的内容不全都是关注人发布的最新的内容。李北涛说:“这也是 Facebook,Twitter 等大多数社交网络公司的通用做法。这也是推荐的一种。其实单按时间排序也是很自然,很简单,很美的一种算法。我觉得轻易是不要打破这种顺序。只有在有很强信号的基础上,才可以使用其他信号来调整这种排序。”
作为 Tumblr 推荐系统背后的男人,我们对他的经历也进行了简单的采访。
李北涛先生毕业于中国科学技术大学少年班,后来出国先去斯坦福读化学物理。97 年的斯坦福,应该算是 CS 的中心。那时候雅虎风头正劲,谷歌在酝酿中。李北涛自言是沾了点斯坦福的仙气,计划先辅修一个 CS 的硕士。选修了几门课后,都取得不错的成绩,他对计算机的兴趣越来越大。同时他也渐渐觉得辅修时间不够用,得全部时间投入才行。于是他坚定了自己的想法,李北涛说:“正好我后来导师当时斯坦福博士毕业,要去加州大学做教授,我就去和他讨论,帮着做一点小项目。最终我就成了他的第一个博士生。这应该是我的一个重大转折。方向定了以后,坚持并不难,因为走的是一条适合自己发展的路。”
正如李北涛所说,这是一条适合他发展的道路,有了扎实的学术基础,李北涛在求职之路上也可以昂首阔步地走着:他先在一家叫 Teoma 的公司做搜索,搜索质量一度和谷歌比较接近;后来在 Etsy 做电商,李北涛自己开发了一套新的算法显著提高了搜索效率,为公司创造了可观的业绩;几年前他加入 Tumblr——当时在纽约首屈一指的 Startup。“在纽约地区 Tumblr 的企业文化算是很好的。工程师文化浓烈。我主要负责推荐系统。在三到四年中我们的推荐系统得到很大发展。”李北涛及其团队研发的推荐系统对公司的社交网络构建的贡献从不到 1% 上升到超过 50%,推荐成功率增加了二十倍左右。成为举足轻重的产品。目前,李北涛负责整个数据科学的 R&D。
社交网络已经大量的深入的使用了 AI,社交网络的海量数据和用户关系极大的促进了 AI 的发展。AI 让社交网络可以精确勾画用户图谱,精确推荐内容,其他用户和广告。
李北涛认为,AI 的加入让社交网络成为继搜索之后的一大广告金矿,这也是 Facebook 能够挑战 Google 地位的根本原因。AI+ 社交网络大数据已经极大的改变了高科技产业,甚至对社会产生了深远的影响。