专栏名称: 钱皓频道
从VC视角观察互联网新趋势,分析背后原因与影响的新媒体分析平台,已有80多万互联网从业者与投资人关注
目录
相关文章推荐
李楠或kkk  ·  it 行业有一个方法论叫 ... ·  昨天  
烂板套利  ·  国产AI算力数据中心全景解析 ·  2 天前  
烂板套利  ·  国产AI算力数据中心全景解析 ·  2 天前  
连州点点网  ·  清远公布一批典型案例 ·  2 天前  
连州点点网  ·  清远公布一批典型案例 ·  2 天前  
通用技术集团  ·  通用技术集团:冲刺一季度 奋战“开门红”① ·  3 天前  
通用技术集团  ·  通用技术集团:冲刺一季度 奋战“开门红”① ·  3 天前  
51好读  ›  专栏  ›  钱皓频道

陈雨强:机器学习在工业应用中的新思考

钱皓频道  · 公众号  · 科技自媒体  · 2016-12-22 21:38

正文


演讲:梁宁,来源:笔记侠(ID:Notesman)


第四范式联合创始人、首席研究科学家陈雨强是世界级深度学习、迁移学习专家,曾在 NIPS、AAAI、ACL、SIGKDD 等顶会上发表论文,并获 APWeb2010 Best Paper Award,KDD Cup 2011 名列前三,其学术工作在 2010 年作被全球著名科技杂志 MIT Technology Review 报道。


陈雨强也是机器学习工业应用全球领军人物,在百度凤巢任职期间主持了世界首个商用深度学习系统、在今日头条期间主持了全新的信息流推荐与广告系统的设计实现。陈雨强目前担任第四范式首席研究科学家,第四范式在人工智能领域科研技术领先,刚刚揭晓的「第六届吴文俊人工智能科学技术奖」,第四范式荣获一等奖,该奖项代表国内最高科研实力。


此前,陈雨强在机器之心精品线下活动中,给业内人士分享了其对于机器学习在工业应用中的新思考。以下为活动现场的速记整理。



我是来自第四范式的陈雨强,负责人工智能算法研究、开发等相关工作。就我此前在工业界的经历,今天跟大家分享的是——「机器学习在工业应用中的新思考」。



正在改变的公司和行业


人工智能在工业界越来越火,过去五年火热程度以指数的方式上升。不管是在公司内部,还是在公司之间、行业之间,人工智能正在变成一个炙手可热的名词。从公开资料上可以看到,Google 和 Facebook 在 2012 年时,只有搜索和推荐等几个少数核心项目使用了机器学习。随着时间推移,到 2016 年第二季度,Google 已经有超过 2000 个项目和产品正在使用深度学习。同时也有报道称,Facebook 已经有超过 17 个大团队、超过 25% 的工程师正在使用机器学习。也就是说,在互联网行业巨头里、公司内,机器学习的影响力正在从少数几个产品迅速扩展到更多的场景。另外,我们发现一个很有意思的现象,就是 AI 慢慢扩展到全行业的影响,当前的趋势正在从之前的「互联网+」或者「移动+」,慢慢转向为「AI+」。比如滴滴是「互联网+打车」,美团是「互联网+O2O」,很多公司之前做的是「怎么用互联网改变传统行业」。但是现在,他们纷纷转向「如何用积累下来的数据提供更多的价值」。还有一些公司,从创立初始就是「AI+」,比如今日头条是「AI+新闻」、大疆是「AI+无人机/机器人」。我们可以看到,AI 正在慢慢渗透到并且改变所有的行业。


在跟大家分享之前,介绍一下我的个人经历。AI 大潮的热度从 2010 年初开始呈指数上升,我非常幸运地赶上了这个大潮。我在学校时主要做人工智能和机器学习的相关研究,具体包括迁移学习等,也在 AAAI 、NIPS、SIGKDD 等会议上有论文发表。


毕业之后我去了百度,所在的部门负责百度的搜索广告系统——凤巢系统。 这个阶段面对的是解决一个公司的一个问题,即「如何提升搜索广告的点击率」这个问题。 当时我做的事情比较偏纯技术,即怎么让深度学习应用到大规模的机器学习中。我们有上千亿个特征,怎样设计一个模型应用深度学习。我们当时上线了世界上第一个使用深度学习的商用系统。


从百度离职之后我去了今日头条。在头条时面对的产品线更多了,除了主信息流推荐以外,小频道推荐、视频推荐,包括信息流广告、评论排序等等,有非常非常多的应用方向。 所以在今日头条,我面对的是一个公司内很多很多的业务与问题。对当时的头条来说,时效性是非常重要的。 除了在技术上设计一个追求极致的时效性以及极致的性能与规模的机器学习系统之外,我还做了一件很重要的事情,是设计了很多机制,让这些人工智能技术能用在头条的各个产品线之中。举个例子,人工智能或者机器学习的算法其实是一个发动机引擎,机制是传动的齿轮,怎样把引擎的动力以最有效的方式传动到各个部件,这是机制所做的事情。所以除了需要关心技术之外,还要关心产品与机制创新。


从今日头条离开后来到第四范式,我们面对的业务、行业会更多。金融、电信、互联网,各种各样的行业,包含营销、获客、风控、推荐、排序等各种各样的问题。 在第四范式我面对的,是各行各业不同场景的不同问题。


可以看到,我的经历是从解决一个公司的一个问题,到解决一个公司的很多问题,到解决各行各业的各种问题。这些经历给了我很多思考,比方说 如何做一个追求极致的人工智能系统?如何在一个公司内让更多的产品使用人工智能?如何让更多的行业使用人工智能? 在人工智能在公司内与行业间爆发的现在,这个是我想分享给大家的。


人工智能成功必要的五个必要条件



为什么人工智能在最近的一段时间非常火?为什么人工智能在 20 年前、10 年前没有这么火?为什么 AlphaGo 能在今年打败李世石而不是更早?我们直观的会认为是因为算法创新。但是算法创新只是其中一点,国内外很多专家分析总结出了人工智能成功的五个必要条件,这里跟大家分享一下:


第一,边界清晰。 问题需要定义得非常清晰,比如 AlphaGo 做的是围棋,围棋是在 19×19 的棋盘上,黑白两方轮流下子的问题,有吃有打劫。如果变成一个开放的问题,变成 20×20 的棋盘,变成黑白灰三方下棋,或者把打劫规则变一下,都会导致人工智能的失败。


第二,外部反馈。 算法要不断的有外部输入,知道我们在什么样的情况、算法做出什么样的行为下,外部给出的反馈是什么,这样才能促进提高,比方说需要 AlphaGo 不断地进行对弈,并且告诉它对弈的输赢。


第三,计算资源。 近些年算法虽然有很大的进步,但计算资源也是产生智能的关键。最近业界在分布式计算上的成功,让我们相对于几十年前有了飞跃的基础。举个非常有趣的例子,Google 在描述 AlphaGo 不同版本的时候,为了简洁明了,直接使用计算能力来分类,而不是使用算法来分类。简版的 AlphaGo 被称作「单机训练的 AlphaGo」,复杂、更高智能的 AlphaGo 称为「多机、并行训练的 AlphaGo」,从这里也可以看出,计算资源起着至关重要的作用。


第四,顶尖的数据科学家和人工智能科学家。 增强学习、深度学习最近重新被提出,需要很多科学家大量的工作,才能让这些算法真正的推行,除了围棋、视觉、语音之外,还有非常多的领域等待被探索。


第五,大数据。 AlphaGo 的成功,关键的一点是 KGS 棋社的流行,KGS 上有数十万盘高手对战的棋谱,没有这些数据 AlphaGo 绝对不可能这么短的时间内打败人类。


这些要素总结起来只有三点:一方面是技术,计算资源和大数据方面的支持;一方面是业务,边界要清晰,业务有反馈;另一方面是人,包括科学家,包括应用到场景需要和人打交道。所以如果一个 AI 要成功的话总结起来三点,要关注技术、要关注业务、要关注人。


工业界需要可扩展的机器学习系统


人工智能的兴起是计算能力、机器学习以及分布式计算发展的结果。在实际的工业界之中,我们需要一个可扩展的机器学习系统(Scalable Machine Learning System),而不仅仅是一个可扩展系统(Scalable System),那什么是可扩展的机器学习系统?


第一点,数据处理的能力随机器的增加而增加,这是传统的可扩展。第二点,智能水平和体验壁垒要随着业务、数据量的增加而同时增加。 这个角度的 Scalable 是很少被提到的,但这个层面上的可扩展性才是人工智能被推崇的核心原因。


举个例子,过去建立竞争壁垒主要通过业务创新快、行业内跑马圈地,或是通过借助新的渠道(比方说互联网)提升效率。在这样的方式中,由于产品本身相对容易被抄袭,那么资本投入、运营与渠道是关键。但随着数据的增加与 AI 的普及,现在有了一种新的方式,就是用时间与数据创造壁垒。举个简单的例子,如果现在去做一个搜索引擎,即使有百度现成的技术现在也很难做得过百度,因为百度积累了长时间的数据,用同样的算法也很难跑出一个比百度更好的搜索结果。这样如果拥有能用好数据的人工智能,就会获得更好的体验,反过来更好的体验又会带来更多的用户,进一步丰富数据,促进人工智能的提高。可以看出,由人工智能产生的竞争壁垒是不断循环迭代提升、更容易拉开差距的高墙。


可扩展的机器学习系统需要高 VC 维


那么,我们怎么能获得一个既拥有高智能水平又能 Scalable 的学习系统呢?


60 年代 Vapnik 和 Chervonenkis 提出了 VC 维理论,形式化的描述了机器学习算法对复杂函数拟合的能力。对 VC 维的理解 ,可以举个简单的例子就类似于人大脑内的神经元,神经元数量越多,这个人可能就越聪明。当然,这个不是绝对的,智商高的人比一定做出来的成就是最高的,这里关键的一点是个人的经历也要多,之后经历过很多事情、并且有思考的能力,才能悟出道理。在机器学习中,VC 维度讲的也是这个道理。




教科书上的 VC 维都是上面这样的一张图。因为过去的数据不大,训练损失函数在不断下降,测试损失函数在不断的上升,要避免过拟合,VC 维就不能太高。比如你是个很聪明的孩子,但是在很小的时候不能让你过多的思考瞎琢磨,否则很有可能走火入魔。过去对我们教导是在你经历不多、数据不多时干脆傻一点,就没有那么多精力去思考乱七八糟的事情。这是当时大家觉得比较好的解法,控制 VC 维,让训练数据的 Test Loss、Training Loss 同时下降。


但随着时代的不断发展,数据也是在不断增多的,我们的观点有了新的变化。在数据量比较小的时候,高 VC 维的模型比低 VC 维的模型效果要差,产生了 over-fitting,这只是故事的一部分;有了更多数据以后,我们发现低 VC 维模型效果再也涨不上去了,但高的 VC 维模型还在不断上升。这就是刚才说的智能 Scalable 的概念,在我们有越来越多数据的时候,要关心的是 under-fitting 而不是 over-fitting,要关心的是怎样提高 VC 维让模型更加聪明,悟出大数据中的道理。


总结成一句话, 如果要成功在工业界使用人工智能,VC 维是非常重要的问题。


工业界怎么提升 VC 维呢?我们知道「机器学习=数据+特征+模型」,如果已经有很多数据,提升 VC 维的方法有两条:一种是从特征提升,一种是从模型提升。我们把特征分为两类:一类特征叫宏观特征,比如描述类特征如年龄、统计类特征如整体的点击率、或整体的统计信息;另一类为微观特征,最典型的是 ID 类的特征,每个人都有特征,每个物品也有特征,人和物品组合也有特征。相应的模型也分为两类,一部分是简单模型如线性模型,另一类是复杂模型如深度学习模型。这里,我们可以引出工业界机器学习四个象限的概念。


模型 X 特征,工业界机器学习的四个象限



工业界具体怎么做的?


第一象限是简单模型加上宏观特征,在现在的工业界比较难以走通,很难得到极致化的优化效果。 这个象限内,有七八十年代专家系统,还有一些统计模型。大家比较熟悉的 UCI Data 就是支持这个时代研究的典型数据,每个数据集有 1000 个左右的训练数据,分的类数也不多,特征也不多。对于这样的数据统计模型比较盛行,要解决的问题是怎样找出特征之间的关系与各自的统计特性。


第二象限是简单模型、复杂特征,最成功的典型案例是 Google AdWords。 Google 在很多技术上都是开山鼻祖,包括整个计算广告学。Google AdWords 有上千亿的特征,每个人、每个广告、每个 Query 的组合都在其中。这种模型非常成功,给 Google 带来了非常大的收益。Google AdWords 占 Google 70% 以上的收入,Google 的展示广告也是用的这样的技术,占了 Google 大概剩下的 20% 左右的收入。


第三象限是复杂模型、宏观特征典型的应用,比如 Bing ads,2013 年他们提出 BPR(Bayesian Probit Regression)来 Model 每个特征的置信度。 雅虎也是第三象限忠实的传道士之一,大家所熟知的 COEC(Click Over Expected Click)这个算法就是雅虎提出的,在上面做了很多模型。其次他们还设计了很多模型解决增强学习问题,比如多臂老虎机等等算法。很多雅虎出去创业的同事最常使用的机器学习技术就是统计特征加 GBDT(Gradient Boosting Decision Tree),通常能获得非常好的效果。


第四象限,复杂模型和微观特征,现在还是热门研究的领域,它最难的一点是模型的规模实在太大。 比如广告有上千亿的特征,如果做深度学习模型一个隐层有 1000 个特征,可能会有万万亿级别的参数。虽然数据很多,但万万亿的数据还是难以获得的。所以怎么解决这个角度的模型复杂问题、正则化问题,目前研究还是一个热点的研究方向。


如何沿着模型优化?


沿着模型优化主要由学术界主导,新的模型主要来自于 ICML、NIPS、ICLR 这样的会议。他们主要的研究是非线性的,总结起来有「三把宝剑」:Kernel、Boosting、Neural Network。Boosting、Neural Network 现在非常流行,Boosting 最成功的是 GBDT,而 Neural Network 也在很多行业产生了颠覆性的变化。大约十年前,Kernel 也是很流行的。借助 Kernel,SVM 有了异常强大的非线性能力,让 SVM 风靡了 10-15 年。优化模型的科学家们为了实验的方便,对工程实现的能力要求并不是特别高,大部分模型是可以单机加载的。要解决的实际问题主要是数据分布式,降低数据分布式带来的通讯 overhead 等问题。


对于工业界中的具体问题,基于思考或观察得到新的假设,加入新的模型、结构,以获得更多的参数,这是工业界优化这一项限的步骤。



以时序动态的协同过滤为例,我们这里引用的是 Koren, Yehuda 在 2009 年在 KDD 上发表的论文 Collaborative filtering with temporal dynamics,这是时序动态协同过滤被应用最多的一篇经典论文。在这篇论文里,首先协同过滤的问题有一个低秩假设,作者认为由 User,Item 组成的稀疏矩阵是由两个低秩矩阵相乘得到预估评分。第二,通过观察数据,作者观察到 IMDB 对某些电影的打分是随着时间的加长,分数不断上升(对那些经典的电影)。根据这样线性的关系,设计「现在的时间」减去「首次被打分时间」作为偏置,拟合斜率就是一个好的模型。考虑到更复杂的情况下,打分随时间的变化并不是单纯的线性,作者进一步提出将线分成很多小段,每个小段做分段线性。


总结一下,通过机器学习优化的套路是什么?


首先,观察数据;

第二,找到规律;

第三,根据规律做模型的假设;

第四,对模型假设中的参数用数据进行拟合;

第五,把拟合的结果用到线上,看看效果怎么样。


这是模型这条路在工业界上优化的方法。


如何沿特征优化?



特征优化主要是工业界主导的,成果主要发表在 KDD、ADKDD 或者 WWW 上,这些模型相对简单粗暴。主要是 LR,比较简单,粗暴是说它的特征会特别多。就像刚才提到的,Google 使用了上千亿的特征,百度也使用了上千亿的特征,这些特征都是从最细的角度描述数据。


沿模型优化这条路的主要特点是什么?模型一定是分布式的,同时工程挑战是非常大的。上千亿的特征是什么概念?即使一个参数用一个 Float 存储,也需要上百 G 到上 T 的内存,是单机很难存储下来的。这还只是模型所占的内容空间,训练起来还有其他中间参数与变量、数据也还要占内存,所以这些算法一定是模型分布式的。针对这些难点,学术界中 KDD 和 WWW 等会议上都在研究如何高效并行,以及如何保证高效并行的时候快速收敛。ASP、BSP 等模型和同步、异步的算法,都是为了保证高效分布式的同时能快速收敛。


应为线性模型理论较为成熟,工业界对模型本身的优化相对没有那么多,其更主要的工作是针对具体的应用提取特征。为什么会有那么多特征?因为我们对所有观察到的微观变量都进行建模。以搜索广告为例,每个 User ID、每个 Query、 每个广告都有特征。同时为了个性化,User+Query、User+广告 ID、Query+广告 ID,甚至 User+Query+广告 ID 都能产生特征。通过组合,特征会发生爆炸,原来可能上亿的特征会变成上千亿特征。


初听这样的思路会觉得有点奇怪,把用户历史上搜过关键词或者看过广告 ID 作为特征,如果这个用户从来没有搜索过这个关键词或者没有看过这个广告,那是不是就不能获取特征了呢?这个问题正是 LR+大规模特征这条路最常被攻击的一点,即如何进行模型泛化。在大规模离散特征机器学习系统里,解决泛化的方法是设计加入层次化特征,保证在细粒度特征无法命中的时候,层次化的上位更粗粒度特征可以生效。比方说如果一个用户是一个新用户的话,我们没有 UserID 特征,但是我们有更高层次的性别、地域、手机型号等特征生效,在预估中起作用。回到说之前的例子中,我们设计「Query+UserID」特征,到「Query」与「UserID」特征,再到更高级的性别属性「男/女」、使用的设备「安卓/ iOS」,可以组成一个完成的特征体系,无论缺失什么都可以用更高级的特征帮助预估进行弥补。



以之前提到的时序动态的协同过滤为例,我们看看如果走特征这条路,该怎么解决协同过滤的问题。首先我们不再做低秩假设,我们把所有的二阶项可以展平成组合特征。其次,我们会发现发现不是所有的数据都是呈线性的,特别有时候会产生一些突变,甚至都不能通过分段线性描述。还是在 Collaborative filtering with temporal dynamics 的论文中,由于作者也不知道什么原因造成了突变,他的方法是把不同维度的数据与时间进行组合,对时间维度的非线性进行建模。加入 Item 把时间分成比较细的桶,做分段线性的拟合。同样把 User 按时间进行分桶,保证对突变也能有比较好的拟合。


所以,当你不能给出比较好的数据假设时,不知道为什么产生突变时,可以更多的依赖数据,用潜在参数建模可能性,通过数据学到该学的知识。


宽度还是深度?


大家都会比较好奇,沿着宽度走好还是沿着深度走好?并没有那个模型在所有情况下都更好,换一句话说机器学习没有免费的午餐(No Free-Lunch):不存在万能模型。



No Free-Lunch Theory 是由 Wolpert 和 Macready 在 95 年提出的一个定理。他们证明对于任意算法或优化算法 A 与 B,如果在某一种损失函数上 A 好于 B,则一定存在另一个损失函数保证 B 好于 A。更直观的描述是,总能找出一个损失函数让任何算法都不比随机猜更好。


这告诉了我们什么?所有的机器学习都是一个偏置,这个偏置是代表你对于数据的假设,偏置本身不会有谁比谁更好这样的概念。如果使用更多的模型假设,就需要更少的数据,但如果模型本身越不符合真实分布,风险就越大。当然我们也可以使用更少的模型假设,用数据支持模型,但你需要更多的数据支持,更好的特征刻画,然后表示出分布。总结起来对于我们工业界来说,机器学习并没有免费的午餐,一定要做出对业务合适的选择。


宽与深的大战




追求更高的 VC 维有两条路:一个是走宽的、离散的那条路,即 Google AdWords 的道路;也可以走深的那条路,比如深度学习或者 YAHOO!News 那条路。这就是深与宽的大战,因为宽与深在工业界都有非常成功的应用案例,坚信宽与深的人很长一段时间是并不互相理解的,各自忠实的信徒和粉丝们都会去拥护自己坚信的算法,质疑另一条路走不通。坚信深度学习、复杂模型的人认为,宽的道路模型太简单了,20 年就把所有的理论研究透彻,没有什么更多的创新,这样的技术不可能在复杂问题上得到好的结果。坚信宽的模型的人,攻击深度模型在某些问题上从来没有真正把所有的数据都用好,从来没有发挥出数据全部的价值,没有真正的做到特别细致的个性化。的确深度模型推理做得好,但个性化、记忆方面差很多。


非常有幸的是,我自己在宽和深两边都在工业界做过实际的探索与研究。吴恩达还没正式加盟来百度之前,曾到百度访问交流,当时我在凤巢,有机会与他探讨机器学习在工业界的一些进展与尝试。在那时我们就发现在工业界中,宽与深有很强融合趋势。Google 作为宽度模型的发起者,正在在广告上尝试使用深度模型,而我在百度也在已经做了同样的事,不谋而合,Google 和百度这些宽模型的拥护者正在向深的方向走。同时吴恩达分享他在 Facebook 交流的时候,发现 Facebook 走的是复杂模型宏观特征,虽然效果不错,但也非常急切的想要尝试怎样使用更宽的模型,对广告与推荐进行建模。


宽与深的模型并没有谁比谁好,这就是免费午餐定理:不同业务使用不同的模型,不同的模型有不同的特点。我们对比一下宽度模型与深度模型:宽度模型有比较准确的记忆能力,深度模型有比较强的推理能力;宽度模型可以说出你的历史,在什么情况下点过什么广告,深度模型会推理出下次你可能喜欢哪一类东西。宽度模型是依靠层次化特征进行泛化的,有很强的解释性,虽说特征很多,但是每一个预估、为什么有这样的预估、原因是什么,可以非常好的解释出来;深度模型是非常难以解释的,你很难知道为什么给出这样的预估。宽度模型对平台、对工程要求非常高,需要训练数据非常多、特征非常多;深度模型对训练数据、对整个模型要求相对较低一点,但现在也是越来越高的。还有一个非常关键的区别点,如果你是 CEO、CTO,你想建一个机器学习的系统与团队,这两条路有非常大的区别。宽度模型可以比较方便与统一的加入业务知识,所以优化宽度模型的人是懂机器学习并且偏业务的人员,把专业的知识加入建模,其中特征工程本身的创新是提升的关键;如果走深度模型,模型的创新是关键,提升模型更关键来自于做 Machine Learning 的人,他们从业务获得知识并且得到一些假设,然后把假设加入模型之中进行尝试。


宽度和深度的大战,就我看来各自都有各自的缺点,我们要各取所长做宽与深的结合。宽与深的结合已经逐渐成为一个研究热点,Google 在今年 4 月份发表的一篇论文,介绍他们的最新工作「Deep & Wide Model」。模型分为 Deep 与 Wide 两部分,好处是它既能对比较细的特征有记忆,同时也有推理的能力。我们认为将来的方向都应该朝这路走。


除此之外,近期还有不少工作在探索这个方向,张伟楠 2016 年 ECIR 发表论文论述如何通过底层输入加上因子分解机让一个稀疏矩阵的深度学习可解,随后在 ICDM 上发表论文进一步加入 Inner Product 和 Outer Product 希望更好的刻画特征之间的关系。第四范式最近也有一些新进展,今年 7 月我们发布了 DSN 算法,算法底层是上千亿大小的宽度网络,上层是一个全连接的网络。难点在于如何解决它的可计算性以及如何解决模型的分布式,如何保持模型的稀疏与避免过拟合。总的来说这方面还是非常前沿的、非常热门的研究领域。


如何上线:从监督学习到强化学习


不管是宽也好、深也好、又宽又深也好,有这么多厉害模型,是不是欢欢喜喜搞好模型、做好特征,线下评估 AUC 涨了,我们就赶快上线?不要高兴太早,线下做好的模型实际上是一个监督学习模型,并不能保证它线上效果好。




以搜索广告为例,上图中最左边表示的是原系统对广告进行排序产生的结果,线上系统展示 6 条广告,还有一些是没有被展示的广告。展示的广告中有被点击的广告(黄色)和没被点击的广告(蓝色)。我们使用展示过的广告研发下一代机器学习模型,如上图中间所示,优化之后发现被点击的广告线下预估得点击率更高,位置向上提升,没有被点击的广告位置向下变化。但是真正的应用到线上的时候(上如最右边所示),面对的侯选广告不止是它展示出来的广告,而是所有的广告。可能之前根本就没被原系统排上来的广告被排到了非常高的位置,这些广告可能很多根本就不会被点击。这样以来,展示过的广告虽然保持了原来的顺序,但是中间插入了很多不会被点击、原来没被排上的广告,占用广告展示位,使得系统 AUC 很差。


这里说一下我当年在百度搜索广告上线深度学习的的故事。那时百度凤巢还是在使用大规模离散 LR 系统,上千亿的个性化的特征让广告效果有长足的进步,刚获得百度最高奖。而这个时候,我是在这个 LR 系统的基础上,尝试使用深度学习的技术进一步提升效果。怎么让一个上千亿特征的宽度系统变身深度系统在但是还是一个没被研究过非常困难的问题,我们花了大半年的时间历经千辛万苦在线下获得了非常显著的指标提升,欢天喜地的想要上线,但刚一上线,我们就发现,线下模型训练的越好,线上获得的效果反而越差。这使我们当时非常沮丧,找了很久原因,定位到发现不是模型不对,也不是深度、宽度的问题,而是监督学习的问题——线上系统并不是问题封闭的监督学习系统,而是开放的不断变化的系统。这就好比你去学打《星际争霸》,不能通过顶级玩家的录像来学,因为学到套路并不一定能打败初级玩家,而必须以赛代练,自己上手,才可以把学到的知识真的用起来,面对变化的现实世界。


回过来看,如何上线其实是从监督学习到强化学习的问题。强化学习一般是闭环系统,系统里会不断的有外部反馈,这个反馈又是由系统产生的输出带来的结果。那如何更好的用系统输出产生的结果进行强化学习?强化学习面临的空间是一个未知空间,在 PPT 的广告的例子中,可以看到的空间是原系统产生出来的空间(只有黄、蓝色广告),但是线上面对的空间其实是黄、蓝加上绿这些广告构成的空间。怎么更好的探索黄、蓝、绿的空间,是强化学习要解决的问题。有很多工作在尝试解决这方面的问题,包括多臂老虎机、UCB 等等很多算法,最近这些强化学习技术也被用到了搜索广告与推荐系统。总结起来, 一定不要开心的太早,线上系统越强数据越有偏,学习越有偏的数据取得的效果,越不能代表上线的效果。


拆解复杂目标到单一目标,逐个优化


有这么多好的技术,怎么更好的服务业务?机器学习做的是单目标优化问题,并没有能做多目标优化的机器学习算法。虽然有研究在做尝试,但在工业界还处于研究的初步阶段。在真正出现多目标机器学习算法之前,我们要更多的解决单目标优化的问题。



比方说新闻推荐就是一个多目标复杂的问题,想要优化的指标极多——我们想优化留存、想优化时长、想优化点击率、想优化转发、想减少低俗、想优化时效性、想加速新用户冷启动等等,只优化某一个目标并不能让我们一劳永逸。那这里回想到以前有一个做推荐的朋友就因此特别的苦恼,因为每天面对这么多的要考虑的因素,每天都在自己跟自己左右互搏,非常的分裂。他在优化点击率时就很担心,是不是变低俗了?优化低俗的时候是不是降低了用户的参与?优化参与时又想阅读时长是不是会受到影响?但是, 如果一心想一次优化所有的目标,那么没有一个目标最终能被优化。机器学习解决问题的套路是通过把目标分解,逐个进行优化。


举搜索广告的例子,搜索广告的收入可以拆解成:流量 * 有广告展示的流量比例 (asr) * 平均页面广告展示条数 (asn) * 点击率 (ctr) * 广告平均计费价格 (acp)。拆解成这么多目标后,优化点击率时就不用考虑其他的因素,点击率用模型优化,价格、条数用竞价机制优化,流量通过产品与渠道优化。把目标拆开后可以非常舒服的优化每一项,每一项都优化得非常极致,整个系统就能做到极致了。再举一个停留时长的例子。如果我们想优化阅读的整体停留时长,并不是去按照直观优化每个页面的停留时常,而是将停留时长分解成点击率 * 点击后页面停留时长,然后分开进行优化。


如果进行了合理的拆解,我们实际上可以有更多基础模型,利用这些基础模型,我们可以定义出针对业务目标的机制,比如说指数加权乘法或者逐级阈值门限机制等。利用设计好的机制,我们可以调整各个目标之间的关系,做出取舍,还可以定量的观察与获得指标间的兑换比例,比方说在模型不进行变化的前提下,多少点击率的降低能兑换出多少总时长的增加。应为每个指标都是独立的,我们只需要用 ABTest 就可以根据公司目标调整这些机制参数了。这样的方法相对于根据目标调整数据更能解释清楚,调整数据是我把目标的拆解直接加到数据中,认为什么目标重要就把那个目标对应的数据加倍、权重加倍。但困难在于加倍数据后模型需要重新训练,也很难说清楚处于连续变化状态中的目标,各个分指标是怎么互换的。


关注人


最后分享一下我们在工业界应用中,关注人的一些经验。关注人其实是一件我之前很少想的事情。如果你专注做机器学习,你可能认为与你交流的人、用你的技术的人或多或少懂得机器学习。但 如果我们的目标是让所有人都能用上人工智能、让工业界更多的产业用上人工智能,你面对的人关于机器学习的水平参差不齐,就是一个非常现实的问题。在这样的情况下,关注人在其中就是至关重要的事。




开头提到的机器学习成功必要条件的五点中,专家数量是机器学习成功的必要因素。困难之一是在更广阔的工业界,专家教授并没有那么多,企业内部需要优化的业务数量也远远大于专家数量。第二是非专业 AI 人员在无法理解(至少宏观上、直观上理解)模型原理之前,他们是不相信模型能够更好的优化他的业务的。比如你要把司机替换成自动驾驶,会发现人有非常非常多的顾虑,因为人不知道为什么机器会做出左右、前后、刹车的判断,也不知道背后的机器学习会在什么时候失效、什么时候能应用。这些问题在当 前的技术前提下都是很难被直接定义、描述清楚的,那么这就会导致人工智能很难被推广到更大的领域中。








请到「今天看啥」查看全文