业界 | 谷歌发布tf.Transform：一个TensorFlow数据预处理库

机器之心 · 公众号 · AI · 2017-02-23 12:29

正文

选自Google Research Blog

机器之心编译

参与：吴攀、李亚洲

当我们将机器学习应用于真实世界数据集时，我们需要花费大量工作来将数据处理成适合标准机器学习模型（比如神经网络）的格式。这种预处理（preprocessing）有许多不同的形式——从格式之间的转换，到文本的标记化（tokenizing）和提干（stemming）以及形成词汇表，再到执行各种数值运算（例如归一化）。

今天，我们宣布发布 tf.Transform，这是一个 TensorFlow 库，可以让用户定义预处理流程（preprocessing pipelines）和使用大规模数据处理框架运行这些流程，同时还能让用户以一种将这些流程作为 TensorFlow graph 一部分的方式运行从而利用这些流程。用户可以通过将模块化的 Python 函数组合到一起来定义一个流程，然后 tf.Transform 会使用 Apache Beam 来执行它。Apache Beam 是一个用于大规模数据的、高效的、分布式的数据处理框架。通过 Apache Beam 计划好的对其它框架的运行支持，Apache Beam 流程还能运行在 Google Cloud Dataflow 上。通过 tf.Transform 导出的 TensorFlow graph 可以让预处理步骤在训练好的模型被用于预测时被复制，比如当使用 TensorFlow Serving 将模型投入应用时。

相关链接：

tf.Transform：https://github.com/tensorflow/transform
Apache Beam：https://beam.apache.org/
Google Cloud Dataflow：https://cloud.google.com/dataflow
TensorFlow Serving：https://tensorflow.github.io/serving/

在生产中运行机器学习模型时会常常遇到一个问题：「训练-应用偏差（training-serving skew）」，参阅机器之心文章《谷歌机器学习应用的四十三条经验法则》。「训练-应用偏差」是指当投入产品应用阶段的模型所收到的数据在某些方面不同于该模型在训练过程中所使用的数据时，预测质量出现下降的情况。tf.Transform 通过保证应用阶段的变换和训练阶段所执行的变换完全相同，能够确保在预处理过程中不会出现偏差，这不同于训练阶段和应用阶段的预处理在两个不同的环境中分别实现的情况（比如，分别在 Apache Beam 和 TensorFlow 环境中）。

业界 | 谷歌发布tf.Transform：一个TensorFlow数据预处理库

正文

请到「今天看啥」查看全文