10 月 10 日,中科视拓对外公布,获得安赐资本领投、线性资本跟投的数千万元 pre-A 轮融资。
撰文 | 邱陆陆
编辑 | 吴欣
去年初秋,中科院人脸识别专业研究员山世光携千万级天使融资创业的消息引发了人工智能领域内一次不小的震动。一年过去了,人脸识别领域繁盛如烈火烹油,而中科视拓这家静水深流的公司却几近隐身。
10 月 10 日,中科视拓对外公布,获得安赐资本领投、线性资本跟投的数千万元 pre-A 轮融资。这是去年秋天中科视拓宣布成立,并获得千万级天使轮融资后,首次公开融资消息。在此之前,机器之心与山世光聊了聊他和这家公司一年间的探索与成果。
以下是根据采访内容整理而成的口述内容:
从开源到赋能,中科视拓的平台化探索
在公司正式成立的这一年,中科视拓围绕计算机视觉和深度学习技术服务和解决方案,结合人力、算力和数据资源的建设,打通了以智能园区为代表的人脸识别 C 端产品,及尾部赋能型平台。
开源的商用级开源人脸识别引擎 SeetaFace,推出一年来,已经拥有企业用户近百家,转化付费用户超过 10 家。具体来说,我们向 B 端企业用户提供 SDK 做技术服务,协助他们嵌入到产品里面去,同时,也向包括华为、平安、中国移动等公司提供开放的源码级合作,实现深度定制化服务,在与这些标杆性客户合作的过程中,我们也帮助他们提升了团队的深度学习研发的能力。
我们也在快速推进赋能型产品服务平台的搭建——Seeta Training As aService,简称 SeeTaaS。
SeeTaaS 平台底层是私有云或公有云形式的云端计算能力,上层则是一套 SeeTaaS 软件,软硬件结合成一个黑盒子。用户将自己的数据交给黑盒子做模型自动选择、模型超参数和参数的自动优化,一段时间后得到完成的结果。目前,我们已经通过 SeeTaaS 帮助中国平安、中国航天、中国电信等多家行业客户建立了自主可控、自主升级与迭代的 AI 能力。
最终,我们希望达到的目标是,对不具备 AI 开发能力的公司进行赋能,希望在五年之后,我们的系统是一个不懂深度学习的中学生都可以通过简单设置来使用的系统。而这个系统在处理过足够多数据的时候,可以像研究者一样积累经验,能够针对一批特定数据去进行分析,对可能的最优模型、超参数和参数、可能的优化方法与优化路径等进行推测和优化。
C 端产品和集成系统的开发,也是我们的业务突破口。我们会委托第三方开发硬件,搭载视拓的算法,开发出 1:1 人证验证一体机用于实名验证需求,开发出 1:N 人脸识别闸机等,给数千人规模的楼宇或单位做无卡的刷脸门禁或闸机。
这其中的实名认证场景,既包括泛安防领域的会议签到系统,也包括一些民用的无感门禁、考勤加上访客系统,或者手机等私人物品的访问系统。后者根照片的质量比较高,可以拿到近照、清晰照片,甚至可以让识别对象协助拍摄多角度照片乃至视频。因此这种场景下的精度更高,可以做到万人规模的单位,98% 的人次可以一次通过。而且系统会进行适应性调整,从生人系统逐渐变成熟人系统,越用越好。
在智慧商业领域,人脸识别技术也在快速切入。中科视拓正和某无人零售商店合作开发面向无人商店的人脸识别系统。当然,最难的应用场景还是警用安全防范领域,这类应用因为识别对象可能进行刻意伪装而难度大增,但得益于数据获取机会的增多,人脸识别技术也在非常快速地进入这个市场,公安部门已经取得了不少战果。我们也和公安部门有合作,开发了针对万人级别的黑名单库的人脸识别系统,这个场景的特殊性是需要控制虚警率尽可能的低,同时还要保证足够高的召回率。
其他外围的应用还包括情感计算,换言之,就是「察言观色」,我们可以通过眨眼次数、心跳次数、眼神集中度、七种基本表情和十几个面部肌肉运动单元的动作捕捉,做情绪指标估计。例如,用心跳次数估计做紧张指标。这类应用可以用于辅助金融机构的风控工作,代替业务员来对客户的风险性进行判断,解决业务员能力参差不齐的问题。也可以用于面试、教学效果评估、疲劳驾驶预防等场景。
为加速落地,我们还成立了自己的系统集成和产品开发子公司——火视科技,专门生产面向 C 端客户的软硬件产品和系统解决方案,以此获取实战应用中的技术需求和数据资源。
在商业世界拼出技术的差异化
事实上,作为一家科技公司,比起商业方面的突出,我们有更大意愿在技术上做到和别人不一样。当然,商业价值的体现也不是一个纯粹的技术问题,而是如何让市场上的用户接受你的技术以及产品。所以从这个角度来说,企业又要反过来从用户的需求出发,通过具体项目真正地理解用户需求,反馈到技术上做更好的改进。
我们和中科院计算所的实验室依然有紧密联系,实验室定位为「视拓研究院」,由公司来推动实验室的算法工程化、产品化。我经常说现在的 AI 技术等于 A(Algorithm) + B(Big Data) +C(Computation Power),实验室强调的是 A,是算法,公司会把数据和算力加进来,也会反过来为实验室提供数据和算力支持。
从方法论上讲,工业界和学术界应该有本质不同。工业界是数据驱动的方法论,而学术界一定要把知识加进来,把深度学习的作用「弱化」,找到可以利用小数据、脏数据、乱数据、半监督、弱监督、无监督数据的机器学习方法。我把这些数据条件称之为 X 数据,而支持 X 数据驱动的方法,一定要充分利用人类数千年来总结的各类知识。过去谈论「知识图谱」仅仅从人的角度出发,现在我认为还应该把数据嵌入到知识图谱里面,通过这种方式去促进机器与人在知识上的对应与相互利用,获得更高效的方法。
在我看来,现在学术界最大的任务应该是要把深度学习「搞掉」,而工业界要做的就是不断地收集数据,然后把深度学习用好,尽力向外推广,拓展它的边界。
我从 97 年的本科毕业设计就在做人脸识别,经历了这 20 年里人脸识别领域的几次起伏。不得不提到的重要变化是,2012 年左右,ImageNet 的巨大成功直接把深度学习带到人脸识别领域。从 2013 年开始,人脸识别的所有技术非常迅速地切换到了深度学习上。深度学习的核心就是特征学习,换句话说,就是不再人为定义 Y = WX 形式的特征,而是交给数据去学习一个通过神经网络实现的 Y=f(X) 形式的变换。
由此,深度学习给人脸识别领域带来了一次跨越式发展。举个例子,在 2012 ~ 2013 年的时候,研究者还普遍认为,基于二代身份证的认证比对是一个不可能完成的任务。它的难度太大了:身份证照片可能是多年以前差别很大的旧照,大小只有 102×126,并且从 30k 左右被强制压缩到 1k,损失了非常多信息。但是现在在人配合地去看镜头的时候,我们已经可以做到在0.01% 误识率(false accept rate)的情况下,有 98% 以上的识别率(Recognition rate)。也就是说一万个人冒充你,只有一个人能成功的条件下,自己本人被正确识别的概率在 98% 以上。在 13 年之前,万分之一精度可能只有 20% 不到的召回率。
另一方面,深度学习对整个识别流程也造成了巨大冲击,它体现了端到端、数据驱动的思想——尽可能少地对流程进行干预、尽可能少地做人为假设。
一开始,研究者用深度学习完成人脸检测、特征点定位、预处理、特征提取和识别等每个独立的步骤。后来预处理被砍掉,因为深度学习学出来的底层滤波器本身就可以完成光照的预处理,而且预处理是以「识别更准确」为目标进行,而不像原来以「让人看得更清楚」为目标。人的知识和机器的知识其实是有冲突的,人类觉得好的知识不一定对机器识别有利。
最近我们在推进的工作,包括我们在今年 ICCV 上的研究,是把第二步特征点定位砍掉。因为神经网络也可以进行对齐变换,所以我们的工作通过空间变换(spatial transform),将图片自动按需进行矫正。
对此,我还有一个猜测:刻意把非正面照片转成正面照片的传统做法,也未必有利于识别。一个观察结果是,同一个人的两张正面照相似度可能小于一张正面、一张稍微转向的照片的相似度。最终,我们希望进行以识别为目标的对齐(recognition oriented alignment)。在未来,或许检测和识别也可能合二为一。现在的检测是对一个通用的人脸进行的,未来或许可以实现检测和识别全部端到端完成:只有特定的某个人脸出现,才会触发检测框出现。
而在图像识别方面,还有很多难题。如果我们寄希望于用深度学习解决图像识别问题,就意味着我们要收集所有待识别物体的有标注数据。这件事情需要多少人力、物力、时间是不可知的,我们甚至无法定义这个世界上有多少需要识别的物体种类。ImageNet 中有一千类,然而日常生活中需要识别的物体至少在万类规模,大千世界里出现过的物体可能有百万类甚至更多。
另外,实际应用中的大量需求是难以想象的,例如对车辆安检需求,可能需要拍车底部的照片。这样的问题是否只能通过采集大量数据来解决,还要打一个大大的问号,而且对于做科学技术的人来说,这个过程非常痛苦,不是一个「优雅」的解决办法。
我们期望有一个像人那样解决问题的办法,也就是说,图像识别,或是说计算机视觉问题,应该有不依靠大数据、更优雅的解决方案。我们的团队也在做这方面的尝试。例如以大量数据学习出来的人脸识别的模型为基础,使用少量数据精调,来完成表情识别、年龄估计等任务,这样得到的技术甚至赢得了国际竞赛的冠军或亚军。
此外,在数据有限的情况下,我们还尝试了在深度学习过程中融入人类专家知识,以减少对数据量的需求。我们的一种策略是把神经网络中需要大量数据进行优化的低层连接权重,替换成人为定义的特征,例如传统的 Gabor 特征,从而减少对大数据的需求,也获得了不错的结果。
公司大事记
2016 年 8 月,公司成立,获得天使投资
2016 年年底,与平安、电信等大公司达成合作
2017 年 1 月,与军方签署无人机视觉技术合作项目
2017 年 3 月,入选中关村前沿储备企业
2017 年 4 月,在杭州成立控股子公司「火视科技」,专注于产品与系统集成
2017 年 5 月,与航天部门签署人脸门禁系统合同
2017 年 6 月,门禁和考勤系统的产品正式问世
2017 年 7 月,第一版 SeeTaaS 系统开始内测
2017 年 8 月,完成 pre-A 轮投资
大公司:微软、亚马逊、阿里、百度、腾讯、英伟达、苏宁、西门子、浪潮
创业公司:商汤科技、依图科技、思必驰、竹间智能、三角兽、极限元、云之声、奇点机智、景驰科技、思岚科技、追一科技、海知智能、出门问问、钢铁侠科技、体素科技、晶泰科技、波士顿动力
人物报道:吴恩达、陆奇、王永东、黄学东、任小枫、初敏、沈威、肖建雄
自动驾驶:传统变革、Uber、图森未来、速腾聚创、驭势科技、全球汽车AI大会
应用场景:金融、医疗、法律、新零售、网络安全
商业地理:加拿大、匹兹堡、瑞士