主题:未来已来--人工智能创新创业分论坛
时间:2017年5月22日下午
地点:国家会议中心402A
本文根据速记进行整理
人工智能的商业化挑战
管延放
搜狐公司 大数据中心副总经理
大家下午好,很高兴有机会跟大家一起探讨人工智能在商业化环境下的实践和挑战。
我来自搜狐的大数据中心,我们团队最主要的工作是负责搜狐整体的流量变现。什么是流量变现?我们知道互联网公司的收入模式主要是两种,一种是前向收费,就是由用户直接付费订阅或者购买,公司直接从用户这里收钱;另一种是更为普遍的后向收费,就是互联网公司把服务或者内容免费提供给用户,然后再按照用户的关注浏览次数,从商业客户那边获取广告收入。这种后向收费的模式,和流量的大小有紧密的关联,所以也称之为流量变现。我从2013年加入搜狐以后,一直在忙的一件事,就是利用技术手段处理搜狐的数据资源,产生出对用户的精准理解,并且在这种理解的基础上,为用户推荐最合适的个性化广告。我们把自己称为大数据中心,是因为大数据是这一切可能性的基础。当时人工智能的概念还没有现在这么流行,所以我们虽然实际上一直在用机器学习的技术,但最早并没有把自己当成一个人工智能的团队。
去年发生一个有意思的转变,整个行业开始重新理解数据驱动商业这件事的本质。基本上大家的共识是,数据的供应量和处理能力已经不再是瓶颈。接下来更重要的,是怎样用更有效的手段把数据的价值最大化。也正好是这时,人工智能因为几个特殊的事件,成为大家讨论的焦点。我们慢慢意识到,这两件事其实是强关联的,因为人工智能才是整个大数据系统能转起来的关键引擎;也终于意识到,我们广告技术团队,其实本质上就是一个用人工智能解决流量商业化的团队。所以才会有今天,我站到这里来,和大家交流。
人工智能的发展,刚才的几位嘉宾也都提到过,我们现在不止是数据充足了、基础架构完善了,现在可供实践的算法和工具也大大丰富了。各方面的进展都给我们创造了很多新的条件。这些条件,使人工智能有机会形成一个真正有规模的产业。
在座的很多朋友应该都是创业公司或是创新的企业,大家掌握着技术,又拥有经验丰富的团队,那下一步怎么才能把这些优势变成真正的价值?这应该是大家共同面临的挑战。我会用搜狐作广告系统的例子,和大家一起回顾我们技术商业化这条路是怎么走过来的,过程中又碰到过什么困难;我也会稍微往外做一些延伸,跟大家一起探讨人工智能相关的技术或产品应该如何应对这些挑战。
搜狐的广告产品称为品算,解决的主要问题就是针对用户特性的广告个性化推荐。
如何知道每个用户的特性?用户来到搜狐的网站,会产生大量的日志记录,这些记录涉及到的维度比较多。搜狐本身的在线用户触点比较多,像搜狐门户和新闻客户端、搜狗搜索引擎、搜狐视频、畅游游戏等不同平台,所有后台的日志数据在技术上都是汇集到一个同平台上的。在这个基础上,我们可以把同一个人在不同触点上所做的行为收集到一起,形成会话日志流。基于这个会话日志流,对用户之间的行为相似性进行建模量化,就能用聚类算法把用户归集到不同的类别中,这是我们通常所说的非监督学习。也有一些方法,需要我们知道一部分用户已经具备的一些特定属性,可以做有监督的机器学习。比如,我们已经知道用户当中注册过那部分人的性别属性。用这部分用户作为训练样本,到整体用户空间中去做监督学习,我们就能把所有用户的性别属性猜个大概。这些技术能帮我们为广告客户定义出合适的定向人群。另外,精准广告产品,要求我们的系统在用户打开网页,但还没有看到广告之前,大概是100毫秒左右的时间里,做出一个机器决策,去判断这个用户对于不同广告的点击概率到底有多大,这个也是我们机器学习的算法,需要我们根据用户的历史行为,比如他看了哪些广告、点过哪些广告,使用逻辑回归的算法来计算。
有些朋友会问,机器学习真有那么厉害,能预测未来?是或者不是。机器当然不能百分百地预测还没发生的事,但机器学习算法确实可以在数据统计层面上给我们一个更准确的未来描述,具体说是预测准确概率的提升。当我们预测的事件以成千万、上亿这样的量级重复发生时,所有概率上的微小提升都会变成实实在在的效果数字。广告也一样,如果我们能把用户点击率提升一个百分点,对公司来说就是真实的一个百分点的收入,这是概率的力量。
人工智能技术领域有些什么样的进展?大家可能在各个场合都看到过这张Gartner的技术成熟度曲线图。图的左边是处于上升阶段的技术,可能并不十分成熟,但由于大家对它有很高的预期,所以会投入很多资源去研究,目前这一区域里主要是机器对人认知交互能力模拟的技术。中间这一个区域是相对比较艰难的阶段,大家在这些领域已经做了比较多的探索,也已经出现了产品,但产品并未达到预期,或者大家使用的过程中又发现了一些新的问题,造成一些质疑。目前这一区域主要是基于数据的预测性分析。右边,随着厂商不断优化产品、解决问题,大家对技术有了更清晰的预期和更完善的运用。这时这个技术真正进入一个稳步的上升期,直至最后完全商品化。这个区域里集成学习和语音识别都是相对比较成熟的技术。
纵观整个行业,我们可以看到人工智能处于一个非常高速的发展期。我们对这个行业里的公司做了一些梳理,把比较活跃的公司都找出来放在一张图上。不看不知道,原来国内已经有这么多的公司在人工智能这个领域布局,有些甚至已经形成了比较成熟的商业模式。
从图上看,人工智能公司大致可以分为三个类别。图上最左边的是智能硬件,2016年这个概念非常热门,当时的新三样是自动驾驶汽车、无人机和机器人,发展都非常迅速。在人工智能领域里这些已经是相对成熟的技术。图上的中间部分是行业应用。很多企业未必只做人工智能,但是因为人工智能的应用可以给其带来大量的增值,使得他们会在这个方面做更大的投入。这里会看到人工智能应用最广泛的几个方面,一个是企业服务,包括营销、商业研究,或者数据挖掘服务。一个是金融,确实金融这个行业最大的特点是丰富的数据,并且对数据的运用能产生看得见的收益。我们从这里也可以得到一个启示,凡是数据供给充裕的行业,都是值得人工智能去开发的行业,比如广告、医疗健康。图上最右边是纯人工智能的企业。他们可能会提供一些专有的算法,或者是在某一个技术领域里做很深度的挖掘,也可能会为人工智能技术提供通用的基础架构。