使用 TensorFlow Lite 进行设备上对话建模

谷歌开发者 · 掘金 · · 2017-12-25 10:12

正文

发布人：Google Expander 团队研究员 Sujith Ravi

今年早些时候，我们发布了 Android Wear 2.0 ，其中包含第一个用于智能消息的 “设备上”机器学习技术。这让智能回复（之前在 Gmail 、 Inbox 和 Allo 中提供）一类的云技术首次可以直接用于任何应用（包括第三方消息应用），无需连接到云。因此，您可以随时随地直接从您的智能手表响应传入的聊天消息。

我们宣布推出 TensorFlow Lite ，这个版本是 TensorFlow 面向移动和嵌入式设备的轻量级解决方案。此框架针对机器学习模型的低延迟推理进行优化，占用内存小，并具有快速性能。作为库的一部分，我们还发布了一个设备上对话模型和一个演示应用，这个应用提供了 TensorFlow Lite 实现的一个自然语言应用示例，这些举措旨在让开发者和研究人员更轻松地构建由机器上推理驱动的新机器智能功能。此模型可以生成对输入对话聊天消息的回复建议，其有效推理可以轻松集成到您的聊天应用中来增强设备上对话智能。

我们发布的设备上对话模型使用一个全新的机器学习架构根据一个联合优化框架训练紧凑型神经网络（以及其他机器学习模型），这个框架最初在 ProjectionNet：利用神经投影学习有效的设备上深度网络中提供。此架构可以在具有有限计算能力和内存的移动设备上有效地运行，它利用高效的“投影”运算将任何输入转换成紧凑的位矢量表示 - 相似的输入投影到附近密集或稀疏的矢量上，具体取决于投影的类型。例如， “hey, how's it going?” 和 “How's it going buddy?” 消息可能会投影到相同的矢量表示上。

根据这个理念，对话模型将这些占用较少计算和内存资源的有效运算结合起来。我们使用一个联合训练两种模型的机器学习框架对此设备上模型进行端到端训练 - 这两个模型分别是紧凑的投影模型（如上所述）和教练模型。两个模型联合接受训练，投影模型从教练模型学习 - 教练具备专家特质，并使用更大、更复杂的机器学习架构建模，而投影模型则类似于从专家那里学习的学生。在训练期间，我们还可以堆叠其他技术（例如量化或提炼）来实现更进一步的压缩或选择性地优化目标函数的特定部分。完成训练后，较小的投影模型能够直接用于在设备上进行推理。

对于推理，训练的投影模型将编译到一组 TensorFlow Lite 运算中，这些运算已经针对在移动平台上快速执行和直接在设备上执行进行了优化。下面是设备上对话模型的 TensorFlow Lite 推理图。

设备上对话模型的 TensorFlow Lite 执行。

今天发布的开放源代码对话模型（以及代码）是使用上面介绍的联合机器学习架构以端到端方式训练的。今天的发布还包括一个演示应用，您可以轻松下载这个应用并在您的移动设备上试用一键智能回复。利用此架构，可以根据应用需求针对模型大小和预测质量进行轻松配置。您可以在这里找到此模型非常适合的示例消息列表。系统还可以回退，从在聊天对话中观察到的热门响应意图学习和编译的一个固定集合建议回复。基础模型与 Google 在其应用中为“智能回复”响应使用的模型不同 ¹ 。

使用 TensorFlow Lite 进行设备上对话建模

正文

请到「今天看啥」查看全文