专栏名称: 爱数据原统计网
中国统计网(www.itongji.cn),国内最大的数据分析门户网站。提供数据分析行业资讯,统计百科知识、数据分析、商业智能(BI)、数据挖掘技术,Excel、SPSS、SAS、R等数据分析软件等在线学习平台。
目录
相关文章推荐
黑马程序员  ·  大数据BI工程师,如何利用AI技术赋能工作? ·  2 天前  
黑马程序员  ·  大数据BI工程师,如何利用AI技术赋能工作? ·  2 天前  
51好读  ›  专栏  ›  爱数据原统计网

视频内容语义智能提取技术---也谈AI

爱数据原统计网  · 公众号  · BI  · 2017-05-18 16:58

正文



视频的内容语义提取的技术,整理有以下几种:


1. 提取视频中的商品


应用场景:比如下面的视频,发现视频中正在展示有电视、帽子、相框,那么就可以推送电视、帽子、相框相关的广告。



实现方式:首先人工标注,然后深度学习。


首先看一个人工标注的案例:


来源:特写|人工智能背后的人 - 知乎专栏


深度学习的结果可以看谷歌现在开源的:搜google video intelligence,可能要翻墙。


谷歌基本上把视频中的物体都可以识别出来,已经非常智能。


适用视频类型:有人物和物品的,有品牌的;


适用场景:电商类,商品类广告;


优势:智能。我们现在看电视剧时,会发现电视剧已经用人工做了这事了,比如三生三世的夜华的长发一垂下来,立刻就推出了洗发水的广告。随着热巴火,贴片广告就放成了热巴代言的品牌。


但是,当面对数万的视频,特别是短视频市场还在快速增长时,就需要机器来完成。

劣势:


比较容易识别出名词来,动词比较难;比如能够识别出“篮球”,但是不能识别“打篮球”。(深度学习可以做到,但是谷歌这个开源没有)


能够识别,但不能判断,比如图片质量的好坏,等。



2. 对视频内容的语义进行关键词提取;


1) 对视频的帧截图:


l 有的是截每一帧;


l 有的是镜头转换时再截,如何判断视频的镜头是否转换呢?计算前后两个图片的差距,差的很多,说明镜头换了,需要再截图。


2) 对截图进行语义识别;


3) 将视频的语音转换成文字;


4) 对文字进行语义识别


5) 将上述截图得到的语义和文字得到的语义综合在一起,就是这个视频的语义;


技术的原话是,“视频内容ffmpeg到声音,语音识别变字幕,nlp处理字幕得到词向量和文档相似度。”,上面是我自己看了一些资料理解的。


优势:比如教育类,视频上的文字内容非常多。


劣势:其他类型的视频文字可能就没这么多了,不足以拆解出语义来。



3. 对标题进行关键词提取;


这种属于对纯文本的提取。词本身的重要程序、词所在的位置,标题比内容重要,前面比后面重要,词频,词的整体出现顺序,综合起来。


优势:计算简单,业内对文本的处理非常成熟,各种算法开源包都很方便。确实能提取出内容来,比如下图是秒拍的转发量前50的短视频的标题,可以看到基本都能覆盖视频的主要内容;



劣势:


标题党问题;


还有一些确实是标题无法分辨具体内容;比如说,有一个视频的标题叫:耳朵怀孕了。视频:一个人唱歌。机器可以识别有个人在唱歌,从开始唱到结束。但是机器不理解为什么标题叫耳朵怀孕了。



4. 对内容人工打标签;


分两块:


l 上述第一种处理方式的人工部分。那篇文章写得也很清楚,我就不多写了。


l 人工编目。这个可以看看豆瓣和视频网站怎么做的,就是比它们界面上显示的标签更细一两层。


l 一些人工打上标签后机器也不能自己学习的,或者学习起来比较吃力,比如场景,还是要靠人工打。



5. 总结


最开始调研的时候,只是想看看业内最先进的方式是什么。但是看下来发现,每一种都只能覆盖一个类目的视频的需求,比如第一种,更适合电视剧或者综艺,如果碰到动漫,就几乎没有作用了。


所以在使用的时候,对每一种类目,都深入分析其视频类型,确定哪一种语义提取方式为主,并且多种方式混合的规则是什么。


要从应用场景往回推,才能推出这一类视频需要哪一种语义提取的方式。


End.

作者:楠楠 (中国统计网特邀认证作者)