专栏名称: 爱数据原统计网

中国统计网（www.itongji.cn），国内最大的数据分析门户网站。提供数据分析行业资讯，统计百科知识、数据分析、商业智能(BI)、数据挖掘技术，Excel、SPSS、SAS、R等数据分析软件等在线学习平台。

视频内容语义智能提取技术---也谈AI

爱数据原统计网 · 公众号 · BI · 2017-05-18 16:58

正文

视频的内容语义提取的技术，整理有以下几种：

1. 提取视频中的商品

应用场景：比如下面的视频，发现视频中正在展示有电视、帽子、相框，那么就可以推送电视、帽子、相框相关的广告。

实现方式：首先人工标注，然后深度学习。

首先看一个人工标注的案例：

来源：特写｜人工智能背后的人 - 知乎专栏

深度学习的结果可以看谷歌现在开源的：搜google video intelligence，可能要翻墙。

谷歌基本上把视频中的物体都可以识别出来，已经非常智能。

适用视频类型：有人物和物品的，有品牌的；

适用场景：电商类，商品类广告；

优势：智能。我们现在看电视剧时，会发现电视剧已经用人工做了这事了，比如三生三世的夜华的长发一垂下来，立刻就推出了洗发水的广告。随着热巴火，贴片广告就放成了热巴代言的品牌。

但是，当面对数万的视频，特别是短视频市场还在快速增长时，就需要机器来完成。

劣势：

比较容易识别出名词来，动词比较难；比如能够识别出“篮球”，但是不能识别“打篮球”。（深度学习可以做到，但是谷歌这个开源没有）

能够识别，但不能判断，比如图片质量的好坏，等。

2. 对视频内容的语义进行关键词提取；

1) 对视频的帧截图：

l 有的是截每一帧；

l 有的是镜头转换时再截，如何判断视频的镜头是否转换呢?计算前后两个图片的差距，差的很多，说明镜头换了，需要再截图。

2) 对截图进行语义识别；

3) 将视频的语音转换成文字；

4) 对文字进行语义识别

5) 将上述截图得到的语义和文字得到的语义综合在一起，就是这个视频的语义；

技术的原话是，“视频内容ffmpeg到声音，语音识别变字幕，nlp处理字幕得到词向量和文档相似度。”，上面是我自己看了一些资料理解的。

优势：比如教育类，视频上的文字内容非常多。

劣势：其他类型的视频文字可能就没这么多了，不足以拆解出语义来。

3. 对标题进行关键词提取；

这种属于对纯文本的提取。词本身的重要程序、词所在的位置，标题比内容重要，前面比后面重要，词频，词的整体出现顺序，综合起来。

优势：计算简单，业内对文本的处理非常成熟，各种算法开源包都很方便。确实能提取出内容来，比如下图是秒拍的转发量前50的短视频的标题，可以看到基本都能覆盖视频的主要内容；

劣势：

标题党问题；

还有一些确实是标题无法分辨具体内容；比如说，有一个视频的标题叫：耳朵怀孕了。视频：一个人唱歌。机器可以识别有个人在唱歌，从开始唱到结束。但是机器不理解为什么标题叫耳朵怀孕了。

4. 对内容人工打标签；

分两块：

l 上述第一种处理方式的人工部分。那篇文章写得也很清楚，我就不多写了。

l 人工编目。这个可以看看豆瓣和视频网站怎么做的，就是比它们界面上显示的标签更细一两层。

l 一些人工打上标签后机器也不能自己学习的，或者学习起来比较吃力，比如场景，还是要靠人工打。

5. 总结

最开始调研的时候，只是想看看业内最先进的方式是什么。但是看下来发现，每一种都只能覆盖一个类目的视频的需求，比如第一种，更适合电视剧或者综艺，如果碰到动漫，就几乎没有作用了。

所以在使用的时候，对每一种类目，都深入分析其视频类型，确定哪一种语义提取方式为主，并且多种方式混合的规则是什么。

要从应用场景往回推，才能推出这一类视频需要哪一种语义提取的方式。

End.

作者：楠楠（中国统计网特邀认证作者）