还记得 WHAT Lab 吗?对,就是一年前微信和香港科技大学成立的人工智能的实验室。
一年过去了,WHAT Lab 在自然语言处理、数据挖掘、语音识别和机器人方向均取得阶段性的进展及成果,今天就拿出 WHAT Lab 的部分研究成果,给各位微信迷开开 AI 的脑洞。
让机器帮你读书
不知不觉间,我们的微信中已经关注了许多公众号,每天都有小红点提示更新,但想必很多人都忙着工作生活而来不及点开。
在信息爆炸的互联网时代,碎片化阅读让我们已经渐渐失去了主动阅读的能力。
用什么来拯救我们的阅读?如果有人主动跟我们说 Hi,我们大多数时间会给出回应。而在阅读中,谁来担当这个主动打招呼的人呢?
也许 AI 就可以。让机器阅读帮助人类阅读,正是 WHAT Lab 教授们正在努力的方向。
让机器读取各种文章并不难,但问题是,要怎么让机器读懂,并以人类能理解的语言表达出来?
这就涉及到了自然语言的处理。对此,WHAT Lab 的研究人员采用了“强化迁移学习”的模型,让机器的表达更符合我们人类的习惯。
我们所说的“强化学习”,实际上是一种激励机制,当 AI 判断正确时,给予肯定的回馈,这就使得 AI 的这一行为得到了加强。而“强化迁移学习”,简单来说,就是让 AI 在强化学习的基础上,学会举一反三。
然而,怎样才知道 AI 是否读懂了文章?——提问。
为了让 AI 能够真正理解上下文,研究人员采用了注意力机制进行文档和问题的语义表示,简而言之,就是让 AI 将注意力集中于某些关键词语和段落,从而学会地找到问题的答案。
当 AI 阅读技能点满时,就能为我们做很多事了,比如告诉我们一篇文章、一本书到底讲了些什么,甚至可以回答关于书本的各种问题。
至于 AI “代读”让我们丧失了体会原著语言魅力的问题,那就是另一个需要探讨的话题了。
关于 AI 概括文章内容的能力,目前一个较为实际的应用就是体育战报了。通过提取文字直播的主要内容,AI 能快速生成比赛战报,这显然比人工写要快多了。
如果你正在减肥,你可能会对涉及“健身”、“减脂”、“节食”这类话题的文章感兴趣;如果你是个皇马球迷,吸引你注意力的除了皇马的文章,肯定还有 C罗、佩佩甚至是其他西甲球队的新闻……
然而,无论你是查找资料还是浏览新闻,你都只能一个一个地输入关键词去查找,或者是通过相关推荐进入其他话题。
有没有可能让机器人自动为相关文章建立索引?这就是“公众号数据层次话题分析”技术要做的事。
首先我们要了解一个概念“多维划分”,也就是说,同一个事物,按不同的属性可以归入不同的类别,比如微信,本质是一个 APP,细分下来又属于“社交媒体”或者“通讯工具”,但同时又具有支付功能,也可以归入“支付工具”。
那么,怎样让 AI 掌握多维划分的技能?WHAT Lab 的研究人员使用了一种叫“隐树分析”的算法——一种包含多个隐变量的树状的概率图模型。
所谓隐变量,就是无法直接观测到数据,例如小明数学 100 分,我们可以得出小明数学能力很强的结论,而这又能进一步推论出其分析能力出色,进而了解到他智力应该不错。这里的“分析能力”、“智力”就属于隐变量。
通过对各种隐变量的划分,赋予其权重,再辅以各种复杂的算法处理,我们就能从多个维度对话题进行划分。
层次话题的分析,除了我们前面所提到的建立文章索引外,在未来还可以有多种应用场景,例如根据用户的常用话题,进行用户画像,从而实现广告的精准投放;将用户的反馈、BUG 提交归类,方便工程师们填坑;而通过层次话题的分析,我们甚至还能了解到一个热点的演变历程,进行舆情监测等。