作者|Janey 校对
|苑晶
编辑|陈文洋
「我本身是做算法的,所以当听到我们做的数据真的有帮助算法公司提高性能时,我会觉得,这就是我们存在的价值。」不久之前,Magic Data(后文称「爱数」)制作的数据成功帮助一家原本只能识别「美式英语」的智能音箱公司,也开始能够识别「中式英语(Chinglish)」,说到此处,张晴晴的声音略显兴奋。
「中科院声学所研究员」、「法国国家实验室CNRS-LIMSI,博士后」,这些光鲜亮丽的履历使得大家也多冠以她「工科女学霸」的标签。但在记者看来,她与无数年轻的创业者一样,充满热情、对市场具有敏锐的洞察力,且丝毫不输给男性创业者。
作为Magic Data的创始人兼CEO,张晴晴此前在AI行业已经拥有13年的科研经历。从科研所离开后,她走到企业中,亲自去了解行业中企业数据的采集及处理方法。但从严谨的科研角度来说,她依然觉得这些数据的处理过程存在缺陷。基于此,张晴晴便决定,要做出更加精准的数据,以帮助企业用户更好更快的产生结构化数据。
2016年,Magic Data正式成立。不论在对客户技术需求的理解上,还是在数据处理的专业度上,张晴晴过去的工作经验、实战背景都成为巨大优势。短短一年间,爱数的团队已具备50人规模,并成功与腾讯、中国移动、思必驰、美的等建立了战略合作关系。
在品途创投与张晴晴的对话中,我们从算法切入聊到数据的具体处理方法,从传统数据市场痛点聊到人工智能的本质,以下是精彩问答选编。
(爱数智慧CEO张晴晴女士与世界著名语音识别专家交流合影
)
品途创投:AI数据处理的市场存在哪些痛点?
张晴晴:
从技术本身讲,在调整数据处理方案的时候,一旦数据的处理方式发生变化,即便核心的统计算法没有改变,最后所呈现出的性能还是会有所不同。过去我们曾经用了很多次的实验来论证这点,也是基于这个原因,我越来越会花心思在AI领域的数据环节,去思考如何做才会更好。
在进入到企业后,我发现传统的数据处理方式都是采用纯人工方式来进行的。但问题在于,处理数据的人越多,最终数据产生出来的性能就越会参差不齐,因为你很难要求每个人都能将数据处理成你想要的样子。所以,在「数据处理」和「AI算法需求」之间,其实存在一个很大的Gap。
另一方面,当时我作为研究单位也会采购一些数据,但是采购回来的数据会有一些并不符合预期,
第一个感觉就是服务不到位。
比如说,我们会采购一些文本类型的数据,其实文本本身也是需要做一些结构化清洗的,这块结构化清洗的时候,会有一些清洗的不是那么好,所以我自己还需要再做一遍清洗,才能用于模型训练。
另外,语音在做标注的时候,在怎么标定这件事情的动作上,是和最终算法会怎么使用这个数据相关联的。
单单说音频切割的准确性,这一个小动作对最后的算法都会有影响。但是,现在很多数据公司并不知道怎么切才是好的,更别说数据处理还有方方面面的细节,而且每一个细节都有可能反映到最终的性能上。
品途创投:在科研院做研究和进入市场做企业,有什么不同?
张晴晴:
差别很大。在科研院所的时候,我们会在算法及其他领域不断创新、突破其精度和效果,我们会不断做很多新颖的尝试,还开玩笑说,这些尝试只要能结合一个点,都可以做一家企业或者公司。
但反过来说,是不是有一个很好的idea就可以做好一个公司?
其实不然。虽然我们在研究过程中对行业积累了很多理解和认识,但在和市场、产品结合的时候,还需要考虑得更加全面,例如推广性、受众。当受众发生量变的时候,相应就会发生质变,并且难度会增加很多。所以做企业就更需要将产品打磨地非常完美。
品途创投:爱数所提供的一站式数据服务具体是怎么操作的?怎样才能提供优质数据?
张晴晴:
一站式数据服务就是提供定制化的数据服务。我们在与客户沟通了解要求之后,再制定数据方案。达到共识后,进行数据的采集、撰写、标注、清洗等服务,为客户提供结构化的数据。
所以做数据,
第一点就是数据处理要追求高精度。
高精度代表还原数据的效果很好:一句话说的是什么,发了什么音,每个音如果都能予以结构化出来,由此训练得到的模型识别性能就会更好。
第二点是体现大数据的覆盖率。
使用深度学习框架,送入系统的数据越能反映真实情况的数据分布特点,系统的效果也会越好。
品途创投:大企业做人工智能的长处在哪里,而初创企业做人工智能的长处在哪里?
张晴晴:
大企业最大的优势在于拥有数据和场景,所以他们可以更大、更全面地做人工智能,主要面向平台;
而初创企业的优势是可以做垂直领域的AI,或者是做AI这条线中的一个环节。我们爱数做的就是AI领域的其中一个环节——数据处理,并且我们在这个领域中努力提高AI数据处理的精度和效率。
而且我们会看到一些传统的垂直领域大企业,他们具有长期积累的数据和用户,也想要接入AI,这就需要懂AI的人找到一个契合点,把AI和传统业务结合起来,做好、做透彻。