专栏名称: 量子位

վ'ᴗ' ի 追踪AI行业和技术动态，这里更快一步！关注我们，回复“今天”，更多大新闻等你来发现

一个耗资数百万的AI数据集，和它背后的90后超人们

量子位 · 公众号 · AI · 2017-09-25 13:26

正文

李根发自凹非寺
量子位报道 | 公众号 QbitAI

不够智能的人工智能，往往被调侃成“人工智障”，但不是所有人都清楚知道“智障”的原因。

1994年出生的巨丹，属于清楚知道原因的那部分人。

这个23岁的化工大学化学专业毕业生，从第一份实习工作开始，核心任务就是人工智能中“人工”的那部分，现在她是一个AI视觉数据集审核团队的leader。每当一个新成员加入，她总会引用她的leader曾经向她解释的话：人工智能人工智能，先有人工才有智能，有多少人工才会有多少智能。

“人工要不够，就会从智能变智障。”

超人90后

巨丹领导的是一个12人规模的团队，完全由来自北京高校的实习生组成，专业不限，年龄不限，被核心在意的只有实习的时间。

今年立夏前后，他们开始了每天为期8小时的工作，主要内容就是为审核已被初步标注的数据集。其中一部分人阅读速度快，被分到了审核“看图说话”的工作，另一部分人则较为细心，于是领到了复核“人体骨骼关键点”标注的任务。

数据标注公司给他们开发了专门的审核平台，这些大学在校生人手一个帐号，他们需要审核的工作对象，要么是那些被框定的人物，要么是被标出14个人体骨骼节点的图像。

这是个枯燥的工作，但不时发生一些小趣事。

在验收中，有一张图片的“描述”写道：一个男孩拿着话筒坐在椅子上。但审核验收的同学认为如此秀气的一个女孩儿，怎么就被描述成“男生”了？理所当然驳回让标注组返工。

然而来自标注组的电话随之到来，电话那头一脸懵逼地反问说：难道鹿晗不是男孩吗？图片中拿着话筒端坐的人物正是鹿晗呀。

这样的例子还有很多，有时也确实是标注组的“错误”。比如有一张图片里，他们把王俊凯标注成了李宇春……

其实参与标注、审核验收的都是94、95年出生的年轻人，他们正是鹿晗和王俊凯影响辐射范围里的核心群体，但机械、重复的审核工作，对于青春偶像的认知变得更为“客观”、“理性”和“AI化”。

这样的工作任务日复一日，持续进行了很久，甚至在上线日期紧迫的前几周，他们这12人小组还在周末加班加点，以保证首批数据集如期推出。

5个月辛苦工作后，巨丹等到了第一批反馈。

9月4日，AI Challenger（全球AI挑战赛）数据集正式上线。数小时后，有参赛选手完成了第一波数据集评价，参与这个视觉数据集打造并最终审核验收的产品经理梁睿收到反馈：“数据集很赞，竟然有针对图片的如此丰富的中文场景描述，前所未见”。

听到这样的评价，23岁的巨丹为之前的辛苦工作感到值得。她告诉量子位，一线负责数据集审核验收的工作并不轻松，但收到这样的反馈会让他们由衷开心。

作为数据集审核验收组组长，巨丹比同组其他人更明白数据集的意义和价值，其中大部分来自程序员和工程师的“言传身教”。

毕业于康奈尔大学、本职为创新工场AI工程院产品经理的梁睿告诉她，人工智能之所以被称为人工智能，就是先有人工再有智能，如果人工付出不够，就会变成人工智障。而人工的多少，最后反应为数据集质量的高低。

尽管巨丹并无法详述数据集具体如何让AI算法更智能，但她知道核心原理：“数据不好，就会影响牛逼技术的产生”。

巨丹从事这份工作已有1年多的时间，她表示现在看到的世界“与众不同”，比如在商场人群密集区，她满眼望去都是“人体骨骼节点”的图像，哪些属于上肢，哪些又属于下肢，哪些很清晰，哪些又被遮挡住了……她好几次这样看着就自己笑出声来，觉得自己拥有了一项“超人”的新技能。

之前有外界对这样的工作表达过悲观，认为数据标注审核完全就是新时代的富士康工作，但显然巨丹不这样认为，她觉得有站在前面研发算法和技术应用的人，也不能缺像她一样的背后服务者，即便看起来没有那么光鲜。

△ AI Challenger数据集验收中

巨丹的观点也得到倪笑海认同，后者是Face++的第4号员工，也是此次AI Challenger提供的三个视觉数据集之一图像中文描述数据集的标注团队负责人。

倪笑海正在打造起一支数据标注方面的正规军，他常对自己的团队说，他们所做的工作可以说是“数字工人”，也可以看做AI前线的认知者，在每一个领域的数据标注中，他们都会因此成为对该领域AI化结合认知最深刻的人。

数据标注的工作，确实不轻松，但也并非外界想象的缺乏前景。

耗资数百万

在Face++，倪笑海承担了这家全球闻名的人脸识别公司光鲜背后的那部分工作，他出身金融财务专业，被印奇、唐文斌和杨沐等人拉拢参与创业，“负责了技术之外所有的事情”。

现在，倪笑海最核心的工作，是为Face++每一个垂直领域的开拓铺垫基础、准备好数据粮草。在Face++，每一名博士都会配备3-4名数据标注人员当助手。而倪笑海领导的300人规模的团队，有些类似于京东壮大过程中的“京东物流”。

这一次给AI Challenger提供图像中文描述数据集标注服务，倪笑海动用了团队中的250人，其中200人标注，50人检查，从2月份正式开工启动，直至近期才基本结束，历时超过7个月时间。

但这还未计入“标准定义”时期的时间。倪笑海认为，这才是一个数据集标注最具挑战的部分。

原本这个数据集标注项目2016年10月就开始寻找团队接手，但在公开标注市场找寻一圈之后，并没有在“客服和运营转型”而来的标注公司中寻得满意的供应商。

于是创新工场投资公司Face++的标注团队进入主办方视野，希望借助经验丰富的Face++标注团队来实现借图像中文描述数据集”标注这一具有挑战的任务。

实际的标注工作并没有马上开始，AI Challenger组委会与Face++标注团队聚在一起，又花了一个月多时间进行任务的“重新定义”。如果不把这个标准工作变成一个可标准化执行的工作，那后期一定问题不少。例如标注的数据会偏，训练出来的模型准确性也会大打折扣。

他认为这个前期定义的需求，需要“产品经理”式的人物定义和梳理，把每一个“描述点”抠清楚。

这也是人类传授机器“智慧”、使其更加“智能”的过程。

比如在最初的设想概念中，图像中文描述数据集中标注“描述”的任务，原始概念是“看图说话，描述图片中的场景”。

但在实际情况出发，这是一个无法标准化完成的任务，因为每一个标注人员之间的主观重心不同、关注点不同，最后描述出的图片可能也会差别巨大。于是在正式启动标注前，组委会和标注团队会花很多时间去明确“场景描述”里的主体，哪些主体需要描述，哪些可以忽略，如何量化描述的正确度。

主干线索明确后，还需要通过多个主观描述让机器算法在学习中找到“客观”，于是在多组对比尝试后，最终选用了5人独立描述1张图片的方式，确保描述的多样性。这是一项对于标注团队来说前所未有的任务。

因为之前的数据集标注，更偏向于垂直领域的算法或自家技术的自检自查，但这次更多出于产业化去做事，试图覆盖学术界到产业界，从落地的角度去看问题，于是标注起来的普适性要求更明显——涉及场景更多，需要的图片数据更广泛，而按照关键词分类，场景数量超过了250个。

倪笑海还透露，在沟通“定义”的过程中，他可以感受到AI Challenger执行委员王咏刚的期望：希望能够倾力投入，从无到有打造一个中文世界的数据集和竞赛，让更多人才和AI交流愈加活跃起来。

量子位请倪笑海对比AI Challenger和ImageNet、MS COCO等数据集，他表示现在后二者在垂直领域上的高精尖地位还无法马上被撼动。此次的数据集建设，创新工场、搜狗、今日头条等主办方致力于广泛参与和影响力，但在将来持续的数据集建设中，超过ImageNet等经典数据集并非没有可能。

关于未来的规划，AI Challenger执行委员兼创新工场AI工程院副院长王咏刚说，主办方将会花几年时间，建成一个具有世界级影响力的科研数据集和竞赛平台。今年的“图像中文描述”、“人体骨骼关键点”、和“翻译数据集”在各自的领域，都形成了独特的优势。但这仅仅是一个开始。接下来，主办方将与最顶尖的学者一起，为最前沿的科学研究建设更多顶级数据集。

然而这并不意味着一切轻而易举，背后的付出很容易被忽略。

王咏刚告诉量子位，这次AI Challenger的数据标注，光成本就花费了数百万元，严格时间投入超过7个月，熟练标注员工投入400人。至少从数据集的角度将，这已是中文世界最具标志意义的AI开发大赛。

数据集

在AI狂飙突进的这几年中，最成功也最经典的数据集，非李飞飞和她的ImageNet莫属。

ImageNet诞生于2009年，在2017年CVPR宣布合并到kaggle，在这8年历程中，完全改变了AI研究的认知、方法，以及留下一个全新的数据集驱动的AI世界。短短7年内，ImageNet优胜者的识别率就从71.8%提升到97.3%，超过了人类，并证明了更庞大的数据可以带来更精确的结果。

很多人都将此视作当今这轮人工智能浪潮的催化剂。更为关键的是，“数据集重新定义了AI从业者对模型的思考方式。”

参与ImageNet挑战赛的企业遍布科技行业的每个角落。2010年的第一场竞赛优胜者都出任了百度、谷歌和华为的高管。马修·泽勒（Matthew Zeiler）利用2013年赢得ImageNet挑战赛时的程序创办了Clarifai公司，目前获得了4000万美元风险投资。

2009年以来，数十个新开发的人工智能研究数据集已经引入了计算机视觉、神经语言处理和语音识别等子领域。如何打造一个ImageNet一样的经典数据集，成为后来者最核心讨论的关键。

在中科院自动化所研究员王亮博士看来，打造ImageNet一样的经典数据集，至少要有三方面的核心投入。

一方面是数据规模，至少是100万级以上的规模，这样才更有说服力；

二是多样性，能够有不同场景下的覆盖，比如人脸识别中，光照、表情、各种角度的多样性是否丰富，都会影响最后结果的准确性和泛化；

三则是数据最好接近真实应用，这样不仅对于学术研究有正向作用，对于技术和产品研发落地，也能不断补足算法开发。

这位国家模式识别重点实验室副主任坦承，做到以上几方面并不容易。

在以往国家模式识别重点实验室的研究中，他们通常的做法是先找可共享的数据集，再不行就自建数据集，但自建则意味着精力和成本投入，即便国家项目中有专门为数据集创建留出的预算，但承担上限也极为清晰，他们尚未有超过50万元规模的投入，这其中还不包括采集相关的费用，真是一件耗时费力的事情。

此外，更便利的方式是和企业合作，企业中的数据集偏向应用，规模和场景也符合，但涉及企业版权、保密等原因，企业开放数据需要机会和运气。

这是王亮博士对此次AI Challenger饱含期待的原因之一。也是这个AI挑战赛从无到有背后最大的挑战。

发起这样的比赛，不仅要投入时间、金钱、人力等各种资源，还要找到并说服合作企业开放数据，而且从结果看，最后搜狗和今日头条开放的数据，也在中国互联网史上堪称前所未见。

在AI challenger宣布推出后的第二天，赛事发起人李开复写下了一篇题为《从1983到2017，我的幸运与遗憾》的文章，详细回顾了1983年至1988年李开复的博士研究往事。

当时在卡内基-梅隆大学攻读计算机博士学位的他，从无到有用统计学的方法，通过建立大型的数据库提升语音识别准确率，并打破了导师坚持的专家系统的研究方式。这让26岁的李开复一战成名。不仅是当年《商业周刊》评选的“1988最重要科学发明”，也让李开复破格留校，成为卡耐基-梅隆大学的助理教授。

其间幸运的是，李开复的博士导师瑞迪（Raj Reddy）给予了这个当时“离经叛道”的学生莫大的支持和鼓励，这位图灵奖得主、CMU终身教授，不仅在精神上表现出“和而不同”的风度，而且在数据库打造和计算资源支持方面，提供了共计30万美元的研发经费支持。

“这在30多年前，我还是一个AI科研人员的时代，能接触到真实世界里如此海量的数据，是个遥不可及的梦想”，谈到这次开放出来的数据集李开复说：“我当年受惠于瑞迪教授的帮助和指导，今天也非常希望能给更多和我一样的年轻人，创造研究机会和条件”。

— 完 —

P.S.如果你对AI Challenger感兴趣，可以点击“阅读原文”查看更多。

加入社群

量子位AI社群9群开始招募啦，欢迎对AI感兴趣的同学，加小助手微信qbitbot3入群；

此外，量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募，面向正在从事相关领域的工程师及研究人员。

进群请加小助手微信号qbitbot3，并务必备注相应群的关键词~通过审核后我们将邀请进群。（专业群审核较严，敬请谅解）

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI

վ'ᴗ' ի 追踪AI技术和产品新动态

一个耗资数百万的AI数据集，和它背后的90后超人们

正文

李根 发自 凹非寺 量子位 报道 | 公众号 QbitAI

超人90后

△ AI Challenger数据集验收中

耗资数百万

数据集

李根发自凹非寺
量子位报道 | 公众号 QbitAI