专栏名称: 大数据分析和人工智能

以传播大数据、解读行业趋势、数据化运营为核心的新媒体平台，已有150多万行业人士关注，荣获2013年新浪微博百强自媒体、2016年中国十大大数据领域影响力平台，关注我就是关注数据

机器学习怎么快速入门？学习神经网络和TensorFlow（实例教程）

大数据分析和人工智能 · 公众号 · 大数据 · 2017-05-29 06:53

正文

作者：多啦A亮&阿童木来自：机器人圈（jiqirenchanye）

此文编译自FCC（FreeCodeCamp），作者为Déborah Mesquita，该作者利用神经网络和TensorFlow进行了机器文本分类，并提出了一种新颖的学习方法——宏观分析。机器人圈希望通过此文对圈友开始机器学习的探索之路有所帮助，文章略长，请耐心阅读并收藏。我们附上了此实例最终代码的GitHub链接，供圈友学习使用。

开发人员经常说，如果你想要着手机器学习，你就应该首先学习算法是如何运行的。 但是我的经验告诉我并不需要如此。

我认为，你应该首先能够宏观了解：这个应用程序是如何运行的。一旦你弄明白这一点，深入挖掘和探索这个算法的内部工作原理将变得相当简单。

那么，你该如何培养对机器学习的直觉并实现宏观了解呢？ 创建机器学习模型就是一个很好的方法。

假设你依旧不知道该如何从头开始创建这些算法，那么你将希望使用一个帮你实现所有这些算法的库，而这个库就是TensorFlow。

在本文中，我们将要创建一个机器学习模型来进行文本分类。 我们先讨论一下主题：

1.TensorFlow是如何运行的？

2.什么是机器学习模型？

3.什么是神经网络？

4.神经网络是如何进行学习的？

5.如何操作数据并将其传递给神经网络输入？

6.如何运行模型并获得预测结果？

你将要学习到大量的新知识 ，那么我们开始吧。

TensorFlow

TensorFlow是一种机器学习的开源库，最初是由谷歌创立的。 这个库的名字帮助我们理解我们是如何用它工作的：张量（Tensor）是通过图的节点流动的多维数组。

★tf.Graph

TensorFlow中的每一个计算都代表着一个数据流图。这个图有两个元素：

一系列的tf.Operation，代表计算单位

一系列的tf.Tensor，代表数据单位

为了看清这一切是如何运行的，你需要创建一下这张数据流图：

计算X+Y的图形

定义x= [1,3,6]，y =[1,1,1]，这个图和tf.Tensor一起工作来代表数据的单位，你需要创建恒定的张量：

现在你需要定义操作单元：

你已经有足够的图元素了，现在你需要创建图：

这就是TensorFlow工作流是如何运行的：首先，你需要创建一张图，只有这样你才能进行计算（真正地运行图节点的操作）。为了运行这图你将需要创建一个tf.Session。

★tf.Session

一个tf.Session对象封装了操作对象执行的环境，并且对Tensor对象进行评估（ tf.Session介绍）。为了做到这一点，我们需要定义在会话中将要用到哪一张图：

想要执行这个操作，你会用到tf.Session.run()这个方法。这个方法执行TensorFlow计算中的一步，而这个是通过运行必要的图表片段来执行每个Operation和评估在参数提取中传递的每一个Tensor来实现的。在你的案例中，你需要运行一系列操作中的一步：

一个预测模型

既然你已经知道TensorFlow是如何工作的，你就必须学习如何创建一个可预测模型。总的说来，就是：

机器学习算法+数据=预测模型

构建模型的过程如下：

构建模型的过程

正如你所见，这个模型包含一种用数据“训练”的机器学习算法。一旦你有了这个模型，你将获得以下的结果：

预测工作流

你创建的这个模型的目标是为了将文本类别进行分类，我们定义它为：

input: text, result: category

我们有一个包含所有文本的训练数据集（每一个文本都有一个标签，说明它属于哪个类别）。 在机器学习中这类任务是以“监督”学习的方式进行的。

你需要将数据进行类别分类，所以它也是一个分类任务。为了创建模型，我们将使用神经网络。

神经网络

一个神经网络就是一个计算模型（使用数学语言和数学概念来描述一个系统的一种方式）。这些系统进行自学习和训练，而不是显式地编程。

神经网络受到我们中枢神经系统的启发，连接着和我们的神经元相似的节点。

一个神经网络

感知器是第一个神经网络算法。（神经网络算法简介）

为了理解神经网络是如何工作的，我们需要通过TensorFlow建立一个神经网络结构。

神经网络结构

这个神经网络将有两个隐藏层（你必须选择网络中有多少个隐藏层，这是架构设计的一部分）。每个隐藏层的工作是将输入转换为输出层可以使用的内容。

★隐藏层1

输入层和第一层隐藏层

你还需要定义第一个隐藏层将有多少个节点。这些节点也被称为特征或神经元，在上面的图像中，它们由每个圆圈表示。

在输入层，每个节点都对应于数据集的一个词(稍后我们将看到它是如何工作的)。

正像这里解释的， 每个节点(神经元)乘以一个权重，每个节点都有一个权重，并在神经网络训练阶段调整这些值以产生正确的输出 (等等，我们一会儿说着重说一下这个)。

除了将每一个输入节点乘以一个权重， 网络中还增加了偏差 （偏差在神经网络中的作用）。

输入乘以权重后,经过加法之后输入给偏差,数据还要经过一个激活函数。这个激活函数定义了每个节点的最终输出。 举个例子来说明，假设每个节点是一盏灯,激活函数将要断定这盏灯是开还是关。

激活函数的类型有很多种，你将使用修正线性单元(ReLu)，这个函数是这样定义的：

f(x) = max(0,x)

[输出X或0（zero），较大的那一个]

例如：如果x= -1,那么f(x)=0(zero); 如果x=0.7,那么f(x)=0.7

★隐藏层2

第二隐藏层的操作和第一隐藏层的操作是一样的，但是现在第二隐藏层的输入是第一隐藏层的输出。

第一和第二隐藏层

★输出层

终于，我们来到了最后一层，输出层。你需要使用独热编码（One-Hot Encoding）来获得这一层的结果。在这个编码中值为以1的比特只有一个，其他的值都是0。

例如，如果我们想编码三个类别(运动、空间和计算机图形学):

所以输出节点的数量就是输入数据集的类的数量。

输出层的值也乘以权重，并且我们还添加了偏差，但现在激活函数是不同的。

你想用一个类别来标明每一个文本，这些类别是互斥的(一个文本不能同时属于两类)。 考虑这一点，我们将使用Softmax函数，而不是使用ReLu激活函数 （ Softmax函数简介）。这个函数将每个统一的输出转换为一个范围在0和1之间的值,也确保单位的总和等于1。这种方式的输出会告诉我们每个文本为每个类别的概率。