概要:
知乎将人工智能引用在各个不同的应用场景。
来源:InfoQ
知乎,中文互联网最大的知识社交平台,用户通过这个平台,彼此之间分享经验、交流知识。从2010年发展至今,知乎已经拥有超过8400万用户。如此庞大的用户群体,每天都会产生十分巨大的数据,如果只依靠人工管理,将会是一个巨大的挑战。知乎将人工智能引用在各个不同的应用场景,InfoQ记者来到知乎,采访到知乎机器学习团队负责人张瑞,他将为我们解密机器学习如何为知乎提供高效运营管理。
知乎与机器学习
关于人工智能的产品,张瑞说:“大家在讲人工智能的时候,可能看到的最为显眼的东西,或者是说最能抓人眼球的东西,是直接把机器学习技术包装成一个产品去卖。比如说无人车,它直接做的东西就是无人驾驶;还有比如说面部识别技术,去做监控,或者安防。这些东西你能直接看到,这就是一个人工智能的产品。”但是对于知乎,张瑞认为知乎首先是一个用户体验导向的产品,为了保障用户体验,实际上用到大量的人工智能,或者机器学习的技术是以AI为支撑的一个产品。
据了解,知乎很早就开始做机器学习方面的工作,比如说知乎的搜索和推荐。搜索和推荐里面有很多的策略,实际上是用机器学习和数据挖掘的技术。在2016年之前,机器学习case by case 地应用在一些业务场景上面,去解决业务面临的问题。随着知乎的产品发布的节奏逐渐加快,同时有许多业务场景,需要用到机器学习技术,去提升用户体验,提高社区运营效率。从那年之后,知乎的产品发布的节奏逐渐加快,同时有许多业务场景,需要用到机器学习技术,去解决一些用户体验的问题,或者社区管理的问题。这个时候,再去纯粹依靠人力进行产品决策和社区运营,就会非常的浪费工程师的人力资源。
“所以我们在16年的时候,我们就开始组建一个统一的机器学习和数据挖掘的团队,然后大家会在一块,比如说我们构建统一的推荐引擎,然后把这个推荐引擎用到各个业务上面去,比如我们的社区,知识付费产品等,然后会用到各个产品上去,来节省我们工程师的人力,提高我们做事的效率,以及最重要的,不断提升用户体验。”张瑞说。
使用机器学习技术,可以更加精细地对用户和内容进行建模,促进内容生产和内容分发的效率。具体说来,可以把知乎对机器学习的应用划分为 6 大场景,也就是用户画像、内容分析、排序、推荐、商业化和社区管理。
机器学习的应用场景
推荐
知乎有很多的推荐业务场景,比如邀请回答,从技术层面来讲,其实就是推荐问题。在知识社区里面,这个问题其实被称为问题路由,知乎技术团队做了很多的研究,怎么去把问题路由做得更加高效。张瑞说,知乎在做问题路由的时候,其实有很多机器学习,或者数据挖掘的技术在里面:比如说首先要知道,一个用户是不是适合回答某一个问题,或者说他回答某一个问题的频率是怎么样的,然后它回答出来,回答答案的质量是怎么样的。对于用户,机器学习会做的这样一个标签,或者说预测分析。
在问题的方面,机器学习会把问题进行基本的理解,比如说这个问题是属于哪个领域的,它的难度是怎么样的,然后去匹配到这个领域下面,适合回答这个问题的人。从回答者的角度来看,既然知道他适合回答哪方面的问题,在等待回答的页面上就会给他推送一些他可能适合回答的问题。
对于问题路由,人和机器,这两方面的表示,现在还是习惯于把它表示成一种,人能工理解的标签。张瑞举例说:“比如说用户A,他是互联网底的一个权威的回答者,他也比较愿意去分享他在互联网的内容。然后问题A,恰好是互联网下面一个比较深度的问题,可以交给用户A来回答。我们是根据这种,人能工理解的标签,去做的匹配。”而现在,张瑞的团队希望加入一些更深度的东西:假如说一个人,他可以表示成一组向量,或者就是说现在比较火的技术,嵌入式表示。这个象量人看上去可能只是一串数字,完全不能理解,但是机器可以去理解它,之后做出更好的推荐,“我们也在努力的往这方面去做一些积极的尝试。”
用户画像
在张瑞看来,用户画像实际上是一切个性化策略的基础。个性化策略,可以把它叫做个性化推荐,也可以说是“千人千面”,每个人看到的东西都是不一样的,或者说每个人看到的东西都是为他自己量身定制的。想要对用户实现这种个性化的推荐策略,或者是千人千面的内容的分发,首先要知道用户对什么东西感兴趣,要确定知道这个用户的属性。
可以说,准确有效的用户画像是进行一切个性化策略的基础。张瑞说:“我们现在已经初步建立了一套用户画像的体系,并且对一些重要标签进行了挖掘,例如用户的活跃度、People Rank,常用登录地点;作为生产者在特定话题下的权威度;作为消费者对特定话题的兴趣,等等。这些用户标签被用在了个性化排序、推荐、问题路由等一系列任务中,取得了不错的效果。”
张瑞补充说,接下来知乎还会对用户的属性进行更深入的挖掘,例如,对用户进行社群分析,并且定位整个信息传播网络中的关键节点,也就是所谓的 Key Opinion Leader;希望用户的兴趣标签变得更加「动态化」和「可预测」,例如,如果一个用户最近对「怀孕期间的健康」这种话题比较感兴趣,那么可以推测,用户在几个月后,可能会对「育儿」这个话题产生兴趣;他的团队还希望能通过用户的分享来重构他的经历,也计划进一步挖掘用户的消费能力和消费意愿,等等。知乎期望能在接下来的一段时间内,能够对用户进行全方位的了解和刻画。
内容分析
关于内容分析,为了给用户去做更好的匹配,用户画像从用户方面了解这个用户喜欢看什么。而内容分析,需要知道用户喜欢的这个内容是什么,才能给用户的兴趣更好的匹配内容。
当用户看到比如一个有关于互联网的回答,从用户的角度看可能已经得到了回答,但是对于知乎的团队这还远远不够,张瑞解释说:“我们还需要知道更细一点:我们需要知道他评论的是不是某个技术,或者说某个事件;我们需要知道这个东西,它是不是和某些人,某些地点,或者是某个时间点有关系。然后在什么范围下,哪些人会比较喜欢去看这样的内容,我们会把这个内容去分享到对应的人的手机屏幕上,或者说他可以接收到这个信息的渠道里面。我们去做这种内容的分析,本身来讲是为了更高效的给用户实现信息分发,或者说是提高他的接收信息的效率。”
知乎上每天都会产生大量的新内容,这些内容需要在第一时间被分析和处理,打上各种各样的标签。因此,知乎构建了一条内容分析的流水线,保证站内每条内容发生变化时,都会立即进入这条流水线进行自动分析,然后第一时间把分析结果同步给搜索、推荐、社区等各个业务场景,对每条内容而言,这个过程大概在 10 秒左右,这种实时性能够满足我们的业务要求。据张瑞介绍,目前在这条流水线上,已经针对文本、图像、音频等数据进行了一些基础分析,例如文本分类、命名实体识别,图像色情、暴恐内容检测,音频降噪等等。
“我们也会逐步往这条流水线上添加更多的组件,例如最近一个重要的工作,是从不同维度刻画内容质量,这些维度包括内容的时效性、专业性、严肃性、准确性,等等。我们还计划对内容进行语义分析,例如自动摘要,让用户在 Feed 流这样信息密集场景中,不用点开卡片就能初步判定内容的大概情况,从而提升筛选内容的效率。”
违规信息处理
知乎每天可以产生大量的信息,其中难免会有一些违规信息出现。但是,具体如何处理就成了一个挑战:主要靠人工筛选是行不通的,费事又费力;但是如果使用机器筛选,添加的限制过于严格,就有可能造成误删的情况发生。
信息处理是跟用户体验非常相关的东西,假如误放过一些东西,对于认真讨论问题的用户,或者说是遵守规则的用户来讲是非常不公平的。“错杀”了之后,对用户的体验造成的影响,也是非常大的。针对违规信息处理,知乎现在整体的思路就是机器辅助运营人员,机器+人工的模式去做的整套的一个处理流程。
对于机器来讲,首先是要识别出来信息中的一些不好的东西。对识别出来的东西,并不是进行一个简单的分类,而是有一个基本的置信度的概念在里面。“比如说一段文本,我们可以判断它是一个低俗内容的文本或者是涉及色情的文本的这种概率有多大。然后在认为执行度非常大的情况下,机器会进入一个自动处理的流程,比如说做一些折叠。这个现在在比如说社区纠纷、用户互相辱骂,或者是色情处理上面,准确度是非常高的,能达到99%以上。”如果仍然有误伤的话,张瑞说,用户可以通过申诉或者举报,去把误伤的内容再找回来。
而误伤本身也可以作为下一步模型或者是机器去判别改进的非常重要的样本。加在模型迭代进入的步骤里面对于一些置信度低的处理,需要运营人员做非常专业的判断,去界定它到底是不是一个违规的东西。
深度学习
一般谈到机器学习,就会讲到深度学习。深度学习在很多方面,其实都已经显示出了,超越传统的机器学习技术的一些潜力,知乎在深度学习方面,现在也进行了探索,有一些成果。
张瑞介绍说,知乎首先是在基础的内容分析和处理方面,使用了深度学习技术。