专栏名称: 投资人说
投资人说,致力于寻找具有匠人精神的投资人,多角度呈现投资人所看到的世界,经常关注我们你可以获得充满趣味的思维启迪,还有接地气的创投方法论。
目录
相关文章推荐
ETF和LOF圈  ·  春节后,A股开市关注什么? ·  3 天前  
梅森投研  ·  A股超级红包,来了? ·  3 天前  
51好读  ›  专栏  ›  投资人说

【纯干货】专访Magic Data张晴晴:数据处理与AI算法需求之间,存在一个很大的Gap

投资人说  · 公众号  · 投资  · 2017-11-13 20:33

正文

点击题目下方蓝字关注 投资人说


作者|Janey  校对 |苑晶 编辑|陈文洋


「我本身是做算法的,所以当听到我们做的数据真的有帮助算法公司提高性能时,我会觉得,这就是我们存在的价值。」不久之前,Magic Data(后文称「爱数」)制作的数据成功帮助一家原本只能识别「美式英语」的智能音箱公司,也开始能够识别「中式英语(Chinglish)」,说到此处,张晴晴的声音略显兴奋。


「中科院声学所研究员」、「法国国家实验室CNRS-LIMSI,博士后」,这些光鲜亮丽的履历使得大家也多冠以她「工科女学霸」的标签。但在记者看来,她与无数年轻的创业者一样,充满热情、对市场具有敏锐的洞察力,且丝毫不输给男性创业者。


作为Magic Data的创始人兼CEO,张晴晴此前在AI行业已经拥有13年的科研经历。从科研所离开后,她走到企业中,亲自去了解行业中企业数据的采集及处理方法。但从严谨的科研角度来说,她依然觉得这些数据的处理过程存在缺陷。基于此,张晴晴便决定,要做出更加精准的数据,以帮助企业用户更好更快的产生结构化数据。


2016年,Magic Data正式成立。不论在对客户技术需求的理解上,还是在数据处理的专业度上,张晴晴过去的工作经验、实战背景都成为巨大优势。短短一年间,爱数的团队已具备50人规模,并成功与腾讯、中国移动、思必驰、美的等建立了战略合作关系。


在品途创投与张晴晴的对话中,我们从算法切入聊到数据的具体处理方法,从传统数据市场痛点聊到人工智能的本质,以下是精彩问答选编。


(爱数智慧CEO张晴晴女士与世界著名语音识别专家交流合影


品途创投:AI数据处理的市场存在哪些痛点?


张晴晴: 从技术本身讲,在调整数据处理方案的时候,一旦数据的处理方式发生变化,即便核心的统计算法没有改变,最后所呈现出的性能还是会有所不同。过去我们曾经用了很多次的实验来论证这点,也是基于这个原因,我越来越会花心思在AI领域的数据环节,去思考如何做才会更好。


在进入到企业后,我发现传统的数据处理方式都是采用纯人工方式来进行的。但问题在于,处理数据的人越多,最终数据产生出来的性能就越会参差不齐,因为你很难要求每个人都能将数据处理成你想要的样子。所以,在「数据处理」和「AI算法需求」之间,其实存在一个很大的Gap。


另一方面,当时我作为研究单位也会采购一些数据,但是采购回来的数据会有一些并不符合预期, 第一个感觉就是服务不到位。 比如说,我们会采购一些文本类型的数据,其实文本本身也是需要做一些结构化清洗的,这块结构化清洗的时候,会有一些清洗的不是那么好,所以我自己还需要再做一遍清洗,才能用于模型训练。


另外,语音在做标注的时候,在怎么标定这件事情的动作上,是和最终算法会怎么使用这个数据相关联的。 单单说音频切割的准确性,这一个小动作对最后的算法都会有影响。但是,现在很多数据公司并不知道怎么切才是好的,更别说数据处理还有方方面面的细节,而且每一个细节都有可能反映到最终的性能上。


品途创投:在科研院做研究和进入市场做企业,有什么不同?


张晴晴: 差别很大。在科研院所的时候,我们会在算法及其他领域不断创新、突破其精度和效果,我们会不断做很多新颖的尝试,还开玩笑说,这些尝试只要能结合一个点,都可以做一家企业或者公司。 但反过来说,是不是有一个很好的idea就可以做好一个公司?


其实不然。虽然我们在研究过程中对行业积累了很多理解和认识,但在和市场、产品结合的时候,还需要考虑得更加全面,例如推广性、受众。当受众发生量变的时候,相应就会发生质变,并且难度会增加很多。所以做企业就更需要将产品打磨地非常完美。


品途创投:爱数所提供的一站式数据服务具体是怎么操作的?怎样才能提供优质数据?


张晴晴: 一站式数据服务就是提供定制化的数据服务。我们在与客户沟通了解要求之后,再制定数据方案。达到共识后,进行数据的采集、撰写、标注、清洗等服务,为客户提供结构化的数据。


所以做数据, 第一点就是数据处理要追求高精度。 高精度代表还原数据的效果很好:一句话说的是什么,发了什么音,每个音如果都能予以结构化出来,由此训练得到的模型识别性能就会更好。


第二点是体现大数据的覆盖率。 使用深度学习框架,送入系统的数据越能反映真实情况的数据分布特点,系统的效果也会越好。


品途创投:大企业做人工智能的长处在哪里,而初创企业做人工智能的长处在哪里?


张晴晴: 大企业最大的优势在于拥有数据和场景,所以他们可以更大、更全面地做人工智能,主要面向平台;


而初创企业的优势是可以做垂直领域的AI,或者是做AI这条线中的一个环节。我们爱数做的就是AI领域的其中一个环节——数据处理,并且我们在这个领域中努力提高AI数据处理的精度和效率。


而且我们会看到一些传统的垂直领域大企业,他们具有长期积累的数据和用户,也想要接入AI,这就需要懂AI的人找到一个契合点,把AI和传统业务结合起来,做好、做透彻。







请到「今天看啥」查看全文