俗话说:条条大路通罗马,做成一件事的方法有很多。在人脸识别技术迅速普及的今天,利用2D人脸信息进行识别似乎成为了主流。人类的思维很容易固化,在人脸识别领域,2D人脸识别不应成为唯一方式,人类身处三维空间,未来需要识别的内容不会只限于面孔,需要用一种新方式实现技术变革。
来自电子科技大学的特聘教授熊效李向我们介绍了一种名为“3D行为识别”的技术。这项技术通过将空间矢量化,跟踪人体运动轨迹并借助于几何计算的方式完成行为识别工作,准确率为100%。
本篇实录系根据健一会(ID:jianyihui2011)沙龙第199位主讲人熊效李在健一会与艾瑞投资研究院联合主办的“人工智能的商业化变现”专题沙龙上的精彩分享整理而成。现标题为健一君所加。
根据嘉宾意见,分享内容已删去部分敏感观点及内部信息。
■ 熊效李
皓图智能科技创始人&CEO
电子科技大学特聘教授、国家“千人计划”专家。毕业于美国伯克利大学,曾在美国Microsoft、WISchip/Micronas 等多家跨国公司担任高级管理职位,并已经成功创办过两家高科技企业,是集科学研究、技术研发、管理和市场运作于一身的复合型专家,在芯片设计、多媒体压缩、3D技术上具有深厚的造诣。2014年底,作为CEO创立“成都皓图智能科技有限公司”,专注于3D行为识别和人工智能机器人技术开发和应用。皓图科技公司成立2年多来,已经在技术和产品上取得重大突破。
大家好,我是熊效李。1997年到2000年,我在微软工作,后来去硅谷创业,开办了一家做压缩芯片的公司,2008年这家公司被收购。回国后创办的VR公司在2013年被收购。2014年创办皓图智能科技,研究“3D行为识别”。
从1997年到2008年,我一直在视频领域工作,2004年开始进入3D方向,那时电脑芯片开始加入GPU(Graphics Processing Unit,图形处理器),我是IPTV(交互式网络电视)芯片负责GPU的设计师。所以在3D行业里,我们有13年的经验积累,而从创办VR公司到现在,在行为视频领域,我们有近10年的经验积累。
人类在视频领域能够发展到何种地步?这个问题的答案有很大的想象空间。人眼能够判断物体的前后关系,但不具备精确测量距离的能力,只能靠叠加关系来了解整个三维空间。现在视觉领域里有两个派别,一个派别使用2D信息,比如2D人脸识别,另一个派别使用3D信息,比如3D行为识别。
人类希望用立体视觉观察世界,只有X轴和Y轴组成的坐标系,包含的信息量很少,所以人们需要的是对三维空间的理解。用2D的摄像头拍摄三维空间所呈现出的画面,其实是一种变形空间,而我们的世界是带有时间的三维世界,只有对三维世界进行三维采集,三维分割,才能观察并理解真实空间,进而解决真实空间中存在的问题。因此,我对使用2D信息的派别持悲观态度。举个例子,一个人通过摄像头时可能在低头,也可能在做其它动作,有时角度很特殊,面部只露出一部分,这种情况下很难利用2D信息进行人脸识别。
我们的技术为什么叫 “3D行为识别”?因为在判定一个人的行为时,我们没有使用常规方法,而是通过加入3D技术,使用了一种全三维的方法,这种方法也可以被称为数学空间、几何空间。到目前为止,公司80%的精力都放在数学层面上,在描述这个世界。
3D行为识别的研发具有一定难度。以前做线下消费行为识别非常难,因为动态识别需要对人的动作进行跟踪,而跟踪是一件很困难的事情,凭借单个摄像头进行跟踪并不现实。当我们把整个三维空间全部矢量化后,这项工作变得简单了。首先把空间和人矢量化,某人进入场景后,设备会对他进行轨迹跟踪,然后可以对他全身的骨骼进行精确的分析和判断,他的手指做了什么运动,碰到了哪些地方,所有轨迹都可以进行跟踪和识别,这项技术不属于机器学习的范畴,而属于几何计算。
目前我们的3D识别技术每秒需要处理3.4G数据,虽然数据量很大,但也带来了更多信息。面对一个面积在一万平米、能容纳十万人的场景,我们的算法依然能够完成行为识别。现在技术上已经可以在任意复杂的环境里面100%跟踪并识别任意多人,可以记录每个ID进出监控区域的时间,并重现其运动轨迹,不管这些人是抬头还是低头,即便只能看到半个耳朵或一只手,同样可以实现识别与跟踪。体积很小的物体也可以能被精确跟踪,动态轨迹可以精确到厘米。
皓图智能目前主要对两类行为进行识别,一类是异常行为的识别,另一类是日常状态的识别。异常行为目前只能识别三种:倒地、撞墙、打架。可能很多人觉得识别“倒地”这个动作很简单,很多公司都可以做出来。其实到目前为止,没有哪家公司检测倒地行为可以实现100%的准确率,能够达到40%的准确率就很不错了。但皓图的准确率是100%,因为我们依靠的是每个人的骨骼特征和轨迹,并且掌握地面的平面方程,可以做到精确计算,当某人倒地时,他身上每一个肢体部位的速度都能被完全掌握。可能有些人会对100%的准确率持怀疑态度,实际上这个准确率不需要测试,因为这就是数学的特点,在几何空间内,数据完全可以计算出来。
目前我们的技术已经落地,主要场景在监狱、派出所。一个容纳12人的监舍,安装四台设备,就能够完全掌握监舍内的所有轨迹,完成异常行为的识别,比如犯人在卫生间里停留的时间,超过一个标准机器会自动报警。
我对人工智能的发展持悲观态度。人工智能需要和一些垂直领域进行联合,比如在语音识别领域,除了识别讲话内容,机器能否把讲话者的微表情或是肢体动作识别出来?能否把微表情或是动作同样转换为文字?这种技术研发可能需要要十年时间甚至更长,难度非常大。
3D识别的成本比2D高吗?
熊效李:3D识别的研发成本会更高。机器内部的传感器价格不贵,真正有价值的是计算程序,以及直接放在前段的GPU部分,这两部分成本比较高。平均每台设备的价格和一台由国内一流厂商生产的摄像头成本差不多,大概两万元到四万元,但是我们的设备解决了识别异常行为这一痛点。从长远来看,我们希望实现全面的行为识别,而不只是异常行为识别。现在很多机器人都能做语音识别,但是不能识别行为,如果机器人看到一个老人倒地,而老人没有发出求救型号,机器人是不会去救他的,所以行为识别和语音识别同样重要,并且难度更大,在数据积累和算法研究两方面都有很长的路要走。
现在大家都在讨论和研究深度学习,但是深度学习在未来能够发挥多大作用并不确定,可能还会有更好的方式来帮助我们解决问题。大家现在认为所有的机器学习都是张量计算,如果研发一种通用的张量计算机,像TPU(Tensor Processing Unit,张量处理单元,一款为机器学习而定制的芯片)一样,是不是能解决一部分问题?不一定。从学科的角度看,我们需要知道数学和物理在本质上的不一致性,而不只是盲目的迎合流行。
在商店里,你的设备如何感知顾客在看哪种商品?
熊效李:全部依靠计算。设备能标定顾客的身体,准确知道顾客的面部朝向、身体朝向、手的位置。对于商品,我们有一个匹配工具,比如杯子和瓶子,这两件商品从3D角度看区别很大,很容易识别,如果是同一种类别的商品,形状一样,颜色不一样,可以通过加重颜色的方法进行区分。目前对衣服的识别有一点难,识别并匹配刚体(在运动中和受力作用后,形状和大小不变,而且内部各点的相对位置不变的物体)很容易,比如在三维场景中,设备可以准确识别任何一把椅子移动,但识别衣服这种非刚体难度比较大。
如果使用你们的设备,平均一家商店需要投入多少钱?
熊效李:一个两百平米的店铺需要十万元左右。价格比安装普通摄像头高一些。其实有降低价格的办法,现在大家都在谈边际计算,将来电信运营商除了提供路由器、交换机之外,还会提供类似于TPU的设备。每栋办公楼里都需要一台甚至多台计算能力很强的设备,楼内的公司可以共享这些设备。朝着这个方向发展,我们的设备能够快速降低前端成本,但是这种发展需要时间。
你们现在有哪些客户?
熊效李:现在主要的客户是监狱和派出所,大部分集中在江苏和四川。司法系统的市场不大,在100亿左右。但公安系统的市场很大,而且有更新技术和设备的需求。不论中国经济处于上行阶段还是下行阶段,都会在安防领域做布局,到2020年,安防企业总收入会达到8000亿。现在各地方都有很多保安,有些保安值班时会打瞌睡,不能履行职责,我们目前有一个项目就是对保安和警察的行为进行识别,这个保安或者警察站在岗亭里是不是在值班?有没有玩手机或者打瞌睡?这些行为都可以识别出来,实现主动式防御,实时报警,而不是通过普通视频调取画面的形式来判断,这样可以让我们的社会更安全。
步态识别有可能在哪些领域广泛应用?
熊效李:步态识别技术很有价值。如果用我们的技术,再配合机器学习,应该能进行步态识别。但是如果只用单目(从一个点观察物体)做步态识别,难度很大。我们现在的行为识别依靠深度完成,最长可以在十米的距离内做识别,但是如果想在更长的距离内,比如100米的距离内做步态识别,认出一个人是谁,难度很大。做步态识别一定要跟踪被拍摄人或被拍摄物,仅凭借一个视频无法实现。
行为识别在教育行业的发展前景怎么样?
熊效李:AI在教育领域会有很大突破。机器教学未来很有可能会替代真人教学,现在有些公司已经开始尝试用AI做英语教学,机器通过对你的识别和判断,可以做针对性教学。我们现在的算法可以精确识别你的心跳,如果你处于站立不动的状态,精确度可以达到实际心跳数的正负一,你处于移动状态时,精确度可以达到实际心跳数的正负五,非常精确。除了测心跳,还可以对体温、呼吸、体重进行非接触式测量,这些技术都可以应用到教育场景中。另外,人工智能也会对会计行业做一些改变,对于人工智能来说,只要是有相应数据的领域,就一定能够把它做好。我也比较看好人工智能在医疗领域的发展。
我们正在记录一个参差多态的创投世界
顶级基金退出真相大披露 | 熊市要来了,送上市公司们一个“两鸟论” | 十年了,互联网江湖再无新巨头 | 中产阶级的焦虑制造了中国教育市场的火爆 | 与四五十岁的创业者如何打交道? | 金融领域未来五年投资新机会在哪里?一般人我不告诉他 | 开会开出的生意经 | 忽悠式重组与并购的挽歌 | 不是所有的共享充电宝都亏钱 | 遇到好色投资人,女创业者怎么办?| 谁说人工智能不赚钱?五大领域已开始变现 | 民营资本收购医院有诀窍 | 40万元赚回6个亿,吴世春是如何做到的?
IPO失败七宗罪 | 印度投资宝典 | 我为什么要投甜心摇滚沙拉 | 想拿政府的钱做VC?看过来 | 曾经有一份facebook融资计划书摆在我面前,但我没有投 | 我的投项目标准:先问问自己愿不愿意出钱投 | 讲真,汽车后市场,我看不到什么创业机会 | 我和西贝莜面村的贾国龙磨了一年才投了进去 | 汽车主题公园都赔钱 | 钉钉的命门 | 真功夫怎么火的 | 人工智能or人工智障 | 社群商业秘笈 | 传统产业第二春? | 大佬们为何总是管不住下半身
健一会已入驻以下平台
界面 | 36氪 | 知乎 | 雪球
今日头条 | 百度百家
天天快报 | 搜狐自媒体