WHAT Lab 给微信开的那些 AI 脑洞

爱范儿 · 公众号 · 科技媒体 · 2016-11-21 16:59

正文

还记得 WHAT Lab 吗？对，就是一年前微信和香港科技大学成立的人工智能的实验室。

一年过去了，WHAT Lab 在自然语言处理、数据挖掘、语音识别和机器人方向均取得阶段性的进展及成果，今天就拿出 WHAT Lab 的部分研究成果，给各位微信迷开开 AI 的脑洞。

让机器帮你读书

不知不觉间，我们的微信中已经关注了许多公众号，每天都有小红点提示更新，但想必很多人都忙着工作生活而来不及点开。

在信息爆炸的互联网时代，碎片化阅读让我们已经渐渐失去了主动阅读的能力。

用什么来拯救我们的阅读？如果有人主动跟我们说 Hi，我们大多数时间会给出回应。而在阅读中，谁来担当这个主动打招呼的人呢？

也许 AI 就可以。让机器阅读帮助人类阅读，正是 WHAT Lab 教授们正在努力的方向。

让机器读取各种文章并不难，但问题是，要怎么让机器读懂，并以人类能理解的语言表达出来？

这就涉及到了自然语言的处理。对此，WHAT Lab 的研究人员采用了“强化迁移学习”的模型，让机器的表达更符合我们人类的习惯。

我们所说的“强化学习”，实际上是一种激励机制，当 AI 判断正确时，给予肯定的回馈，这就使得 AI 的这一行为得到了加强。而“强化迁移学习”，简单来说，就是让 AI 在强化学习的基础上，学会举一反三。

然而，怎样才知道 AI 是否读懂了文章？——提问。

为了让 AI 能够真正理解上下文，研究人员采用了注意力机制进行文档和问题的语义表示，简而言之，就是让 AI 将注意力集中于某些关键词语和段落，从而学会地找到问题的答案。

当 AI 阅读技能点满时，就能为我们做很多事了，比如告诉我们一篇文章、一本书到底讲了些什么，甚至可以回答关于书本的各种问题。

至于 AI “代读”让我们丧失了体会原著语言魅力的问题，那就是另一个需要探讨的话题了。

关于 AI 概括文章内容的能力，目前一个较为实际的应用就是体育战报了。通过提取文字直播的主要内容，AI 能快速生成比赛战报，这显然比人工写要快多了。

想你所想

如果你正在减肥，你可能会对涉及“健身”、“减脂”、“节食”这类话题的文章感兴趣；如果你是个皇马球迷，吸引你注意力的除了皇马的文章，肯定还有 C罗、佩佩甚至是其他西甲球队的新闻……

然而，无论你是查找资料还是浏览新闻，你都只能一个一个地输入关键词去查找，或者是通过相关推荐进入其他话题。

有没有可能让机器人自动为相关文章建立索引？这就是“公众号数据层次话题分析”技术要做的事。

首先我们要了解一个概念“多维划分”，也就是说，同一个事物，按不同的属性可以归入不同的类别，比如微信，本质是一个 APP，细分下来又属于“社交媒体”或者“通讯工具”，但同时又具有支付功能，也可以归入“支付工具”。

那么，怎样让 AI 掌握多维划分的技能？WHAT Lab 的研究人员使用了一种叫“隐树分析”的算法——一种包含多个隐变量的树状的概率图模型。

所谓隐变量，就是无法直接观测到数据，例如小明数学 100 分，我们可以得出小明数学能力很强的结论，而这又能进一步推论出其分析能力出色，进而了解到他智力应该不错。这里的“分析能力”、“智力”就属于隐变量。

通过对各种隐变量的划分，赋予其权重，再辅以各种复杂的算法处理，我们就能从多个维度对话题进行划分。

层次话题的分析，除了我们前面所提到的建立文章索引外，在未来还可以有多种应用场景，例如根据用户的常用话题，进行用户画像，从而实现广告的精准投放；将用户的反馈、BUG 提交归类，方便工程师们填坑；而通过层次话题的分析，我们甚至还能了解到一个热点的演变历程，进行舆情监测等。