双创周演讲实录丨明立波：基于HPC和大数据技术的超大规模视频内容分析

中国人工智能学会 · 公众号 · AI · 2017-09-19 22:54

正文

由2017全国双创周组委会指导，国家发展和改革委员会与中国科学技术协会联合主办，中国人工智能学会承办的2017年国家双创周与人工智能科技相关的重要活动：“智创未来——人工智能与新生活创新创业论坛”于9月19日下午在中关村国家自主创新示范区成功举办。

以下是明立波老师的演讲实录：

明立波中科曙光解决方案中心副总工程师

明立波：谢谢大家。非常感谢学会刘老师和赵老师的邀请。我这几年一直在做视频处理相关的东西，今天给大家讲一下视频处理当前能够做到什么样以及具体的效果。大家知道这两年开始，Skynet之后雪亮工程的进展，各地摄像头数量越来越多，差不多每个城市会有十万路左右，用于分析的摄像头差不多在一万多的规模。它对应什么规模的数据量呢？按照现在的要求存储一年，总共生成约1.8万亿的数据。在此基础上，要对各种属性进行查询，对各种行为和场景进行预警分析，实时计算的量五亿条左右，而且实时分析的话要求一百毫秒以内的延时，具体如何实现，后续我给大家说明。

首先介绍大数据。大数据这么多年说的比较烂了，各种各样的3V、5V、5S等等，今天不提这些概念。我从2011年开始做大数据到现在，从大数据落地的角度，可以认为大数据的系统无外乎两大部分，DB和BI，我今天主要说DB，不是传统的DB，是能够实时处理万亿规模数据的超级DB。大家知道大数据它的落地非常困难，缺一个什么东西呢？缺一个类SQL的PL，这个PL不是Programing Language，而是Process Language。后面大概会说一下。大数据时代的数据处理，更多强调的是流程，而不是数据处理本身。这时候你会发现在十万亿的规模，如果要做实时处理的话，以前所有的方法都不顶用了。这个时候怎么办呢？就是HPC技术的天下。100G带宽以及0.6us的延时，才使得十万亿规模的实时分析成为可行。

其他的东西，我就不给大家细说了。今天主要讲视频和图像分析的，为什么要讲这个呢？因为这个是我们工作的核心，也是在创新性的把人工智能后端接入到大数据平台，让大数据和人工智能混合作用产生新的系统。

先看一下视频图像分析系统整体的架构。通过分布式消息流把视频分发、人脸识别、视频结构化和大数据等系统整合起来。业内绝大多数公司的做法都是在AI引擎后端做统计分析，但在系统设计时，我们权衡，一万摄像头规模的情况下，一秒钟的数量差不多是在六万条，六万条入库的情况下再去做预警，要挂个后端的方式不太适合，所以后来改了。

下面讲一下具体的处理流程。前段输入一秒钟差不多有十万条，然后在要保持好几年的情况之下做属相检索和实时预警。我们采用了两个消息流并行处理的方式，基于Kafka Stream对前端数据进行简单的过滤和聚合计算，然后分发到不同的后端集群。后端集群针对不同业务场景采用Spark内存计算或者Redis-ML分别进行全量属性查询和实时预警分析。

这个是一个具体的属性搜索的界面，你会发现包含了各种各样的属性搜索。各类高大上的技术对我们重要，但是对客户不重要。我们系统设计的目标就是能够让不懂技术的人也能够很好的应用系统。我对我的程序员说过，我不和你讨论哪个合适哪个不合适，一切以用户的偏好为准。

今天就给大家分享到这里。再次感谢学会的邀请。谢谢大家。

CAAI原创丨作者明立波儒

未经授权严禁转载及翻译

如需转载合作请向学会或本人申请

转发请注明转自中国人工智能学会