用Python实现CNN长短期记忆网络！你也行

雷克世界 · 公众号 · 机器人 · 2017-08-21 16:37

正文

请到「今天看啥」查看全文

图：pixabay

原文来源：https://machinelearningmastery.com/

作者：Jason Brownlee

「机器人圈」编译：嗯~阿童木呀、多啦A亮

大家应该都很清楚，诸如图像这样的具有空间结构的输入，是不能用标准的Vanilla LSTM来进行简单建模的。

卷积神经网络长期短期记忆网络或简称CNN LSTM，它是LSTM架构，是专门为诸如图像或视频等序列预测问题而设计的LSTM架构。

在这篇文章中，你将了解更多关于用以序列预测的CNN LSTM架构的详细信息。

阅读本文之后，你将会知道：

•用于序列预测的CNN LSTM模型架构的发展。

•适合用CNN LSTM模型进行处理的问题类型的示例。

•在Python中如何用Keras实现CNN LSTM架构。

一切准备就绪，开始启程吧。

CNN LSTM架构

CNN LSTM架构涵盖了使用卷积神经网络（CNN）层对输入数据结合LSTM架构进行特征提取，以支持序列预测。

CNN LSTM被开发用于视觉时间序列预测问题和从图像序列（例如视频）生成文本描述的应用。具体来说，问题包括以下几种：

•行为识别：生成图像序列中演示的行为的文本描述。

•图像描述：生成单个图像的文本描述。

•视频描述：生成图像序列的文本描述。

[CNN LSTM]是一类在空间和时间上都具有一定深度的模型，它可以灵活地应用于一系列涉及顺序输入和输出的视觉任务。

——2015《用于视觉识别和描述的长期循环卷积网络》（ https://arxiv.org/abs/1411.4389 ）

其实这种架构最初被称为长期循环卷积网络或LRCN模型，尽管在此次课程中，我们将使用更通用的名称“CNN LSTM”来指代使用CNN作为前端的LSTM。

该架构主要用于生成图像的文本描述任务。其中最关键的是CNN的使用，它要在一个具有挑战性的图像分类任务中进行预训练，而这个任务被重新定义为用于标题生成问题的特征提取器。

将CNN用作图像“编码器”是很自然的，首先对它进行预训练，以用于图像分类任务，并使用最后一个隐藏层作为生成句子的RNN解码器的输入。

——2015《展示并讲述：神经图像字幕生成器》（ https://arxiv.org/abs/1411.4555 ）

除此之外，该架构还被用于语音识别和自然语言处理问题，其中CNN用作音频和文本输入数据中的LSTM特征提取器。

这种架构非常适合于以下问题：

•在其输入中具有空间结构，例如图像中的2维结构或像素，或者是句子、段落以及文档中的单词的1维结构。

•在其输入中具有时间结构，例如视频中的图像顺序或文本中的单词，或者需要在文本描述中生成具有时间结构的输出，例如文本描述中的单词。

卷积神经网络长短期记忆网络的网络架构

用keras实现CNN LSTM

我们可以定义一个用Keras联合训练的CNN LSTM模型。

关于CNN LSTM的定义可以这样理解：在前端添加CNN层，然后在输出端添加具有密集层的LSTM层。

将此架构定义为是由两个子模型组成的是有帮助的：用于特征提取的CNN模型和用于在时间步长中解释特征的LSTM模型。

让我们在一个具有二维输入序列（我们将其假设为图像）的情境中来理解这两个子模型。

CNN模型

我们可以定义一个2D卷积网络，由Conv2D和MaxPooling2D层组成，并将其层叠到所需深度的堆叠中。

Conv2D将解释图像的快照（例如，小方块），池化层将合并或抽象解释。

例如，下面的代码片段可以读取具有1个通道（例如黑色和白色）的10×10像素图像。 Conv2D将以2×2快照读取图像，并输出图像的一个新的10×10的解释。MaxPooling2D将将解释池化为2×2块，将输出减少到5×5合并中。打散的层将采取单个5×5映射，并将其转换为25个元素的向量，为处理其他层做准备，例如用于预测输出的密度。