近期LOL和王者荣耀游戏已经充斥着真个朋友圈,但是谁又知道在火热的游戏进行中,又有一批批IT男在完成另一项重要的任务,那就是利用深度学习的知识去完成游戏直播的智能化,给现场欣赏比赛的观众不一样的感受。
尤其是最近几年人工智能已经得到了所有业界人士的关注,也得到了国家政府的大力支持,在这样美好的环境中,我们应该把重心放在创新,怎么利用现有的知识去创新的算法、框架、模型等,也要利用现有的高新技术去完善生活中的一些实际工作。
比如去年的出现的阿尔法围棋,也就是大家耳熟能详的AlphaGo,由谷歌(Google)旗下DeepMind公司的戴密斯·哈萨比斯、大卫·席尔瓦、黄士杰与他们的团队开发。其主要工作原理是“深度学习”。去年到2017年初让
AlphaGo火遍全球。
近期,
AlphaGo 2.0在乌
镇又与
柯洁对弈,得到了很多人的关注。这也让“TPU”再一次掀起一次浪
潮,Jeff Dean 甚至直接放出了与GPU的性能对比图。从昨天的赛后采访到今天的主旨演讲,哈萨比斯等人一直在强调TPU对新版本的AlphaGo的巨大提升。看来,TPU将会成为接下来一段时间内谷歌的战略重点。
据介绍,第二代 TPU 设备单个的性能就能提供高达 180 teraflops 的浮点计算量。不仅如此,谷歌还将这些升级版的 TPU 集成在一起成为 Cloud TPU。每个 TPU 都包含了一个定制的高速网络,构成了一个谷歌称之为“TPU pod”的机器学习超级计算机。一个TPU pod 包含 64 个第二代TPU,最高可提供多达 11.5 petaflops,加速对单个大型机器学习模型的培训。
http://mp.weixin.qq.com/s/1X9xiZkmVPI-j-aipr-ocg(这是
AlphaGo 2.0的具体算法简单介绍。
)
近期又出现了Alphago Zero,有一次冲击了人类的挑战。
还有最近华为Mate 10的麒麟970是华为首款人工智能移动计算平台,是全球首个独立AI人工智能专用NPU神经网络处理单元的芯片,所采用的是创新的HiAI移动计算架构。
麒麟970采用创新设计的 HiAI 移动计算架构,具有高能效的异构计算架构来大幅提升 AI 的算力,其 AI 性能密度大幅优于 CPU 和 GPU,将用更少的能耗更快地完成 AI 计算任务,与服务器端 AI 设计完全不同。
所谓的HiAI移动计算架构,有四部分组成,CPU、GPU、ISP/DSP和NPU。全球第一枚集成专用NPU的移动芯片,华为一开场重点介绍NPU神经网络单元,称在HiAI架构下AI性能密度大幅由于CPU和GPU,能够用更少的能耗更快的完成更多任务,大幅提升芯片的运算效率。
但今天的主角不是
AlphaGo Zero也不是什么TPU,更不是Mate 10的NPU。今天的主角是最近比较火热的游戏——LOL&王者荣耀!
居然深度学习可以在围棋上、在手机上,在处理器上都大有作为,那是不是在游戏中的检测也可以做得很好,之前谷歌就训练的上百款基于DL的小游戏,说明这条路是可以行得通,而且最终的效果也非常有效。
现在就有这样的团队在解决游戏直播过程中出现的一些问题,比如有时候游戏直播我们会没有第一时间看到精彩的游戏时刻,因为我们不能每时每刻都能预测到亮点事件(也就是精彩的团战时刻),现在可以基本解决这个问题。
注:下文有很多细节没有具体描述,有兴趣的朋友可以自己去进一步去挖掘,去学习。
比如在直播过程中,出现了“一血”(就是全场游戏第一个别杀的玩家),但是我们有时候没有看到这个事件场景(可能镜头在其他战队人员处),这样就让直播的热度降低,接下来来说说直播过程中游戏精彩事件检测和亮点事件的预测。
最近几年
在线直播平台出现迅速。流媒体视频服务,包括编辑的视频节目,电影,电视节目和赛事直播。2014
每月
有100百万独立用户观看160亿分钟的视频流。在同一年超过11百万的视频在这个平台上每月播出。如此巨大的用户和网络流量意味着很大的商业潜力和许多技术上的挑战。各种各样的问题,高效的访问显然是做流媒体平台取得成功的关键因素。在这项工作中,将以LOL为例,从事件的角度和亮点
探讨有效的问题
。
作为流媒体直播系统的出现,许多作品已被提出,从不同的角度,系统研究。kaytoue等人专注于电子竞技视频流,可以让职业玩家和流媒体平台获得潜在的收益。他们还发现,观众的数量可以被预测和解释。
Pires
呈现了数据集主要
由两个主要用户生成的直播流系统收集组成,如:Twitch和YouTube。这丰富的数据集中,他们主要
在这些系统
研究总体的带宽,独特的通道数量和流行分布。
Hamilton
在Twitch上提供了视频游戏直播流的调查。
他们采访了几个Twitch用户,发现互动的难度有所影响
用户的感觉,他们探索了流媒体系统的设计问题和影响,提升Twitch流媒体系统以及其他流媒体服务的线索。
在游戏视频的研究,特别是从视觉的角度分析,比较少。在这里,调查相关文献可视化分析游戏视频。Douglass利用多种图像处理和计算机视觉技术来显示游戏记录。例如,记录游戏关键帧,以网格方
式显示和多帧叠加许多帧以创建显示复现视觉假象的平均图像
。
Lewis
分析球员的动作,如每分钟的动作空间变异行为,挖掘相关的行为和赢得比赛之间的关系。毫不奇怪,他们发现玩家能够以最快动作执行往往会赢得比赛。rioult提取拓扑学的线索,如多边形区域中玩家的移动,预测多人在线对战竞技场比赛的结果。
事件检测
在LOL游戏中,一些重要的事件,例如某人的杀戮,文本消息呈现在屏幕上,如下图所示。
通过认识到这个信息和联想它与相应的时间戳。下图2显示了游戏所有生成文本的接口。这样的演示使用户能够快速掌握游戏的进度,并能使游戏视频的访问变得更重要。
图2 文本生成接口
图1主要显示了事件检测的整个流程图。对于每个视频帧,首先应用
Sobel
边缘探测器提取边缘(图1b),并进行二值化以过滤出弱边缘(图1 c)。通过形态学操作,包括扩张和侵蚀(图1d),更多噪声边缘像素被过滤掉,连接边缘像素的最小Bounding-Box被检测到。太小的Bounding-Box最后被丢弃(图1e)。
图1 事件检测的整个流程图
检测到的文本区域通常有混乱的背景,这就会阻碍准确文字识别。图3显示了检测到的区域样本。最终使用了
Tesseract OCR package
进行微调,降阈值设置为0.6。为了抵抗噪音,在持续时间内收集匹配结果并确定以多数票通过的事件。
在模型中设置了一个识别文字的集合W={w1,w2,...,wM},与预先设置的句子对比,预先句子如表所示:
其中,W组成的Bounding-Box被表示为i,如果i=arg max_i |W∩Si|,其中|·|表示输入单词的个数。
如果识别的Bounding-Box
里的文字与任何Si都不匹配,这个Bounding-Box被视为噪音并丢弃。
精彩事件预测
据估计,2014年Twitch平均消耗了1Tbps带宽 ,平均每月花费1000万美元。因此,如何在不牺牲用户体验的情况下保存带宽是非常重要的。
为了解决这个问题,流媒体平台的最佳策略之一是动态地调整流媒体的比特率,这样可以降低传输带宽和观众观看的质量可以得到保护。
应用了遗传算法,利用了交叉操作和相对应的后期处理。
为了预测一个精彩事件,一个简单的方法是假设在一个局部区域精彩事件示的发生概率是相同的。局部平均概率在第t秒的计算如下:
m
t
=αh
t
+(1-
α
)m
t-1
其中,
h
t
表示精彩事件在第t秒的概率,通过SVM模型给出概率值。
α
是一个平滑常数,用来平衡目前发生的
h
t
和之前平滑值
m
t-1。
上述方法假设数据是没有趋势。然而,更多的一些视觉线索,比如游戏玩家聚集在一起时,会出现一个精彩事件。因此,采用布朗的线性指数平滑方法,更有效捕获时变趋势,以预测精彩事件发生的
概率。设置m'为平滑系数:
m'
t
=
αh
t
+(1-
α
)m'
t-1
再设置m''为双平滑系数,
m''
t
=
αh
t
+(1-
α
)m''
t-1