专栏名称: 创新工场
搭建创新工场和创业者的沟通交流平台,在这里,您可以学习创业相关的法务、市场、财务、HR等各个业务领域所需的知识干货,还有机会参与到工场举办的创业者培训、沙龙和其他各类活动中。
51好读  ›  专栏  ›  创新工场

AI Challenger全球AI挑战赛启动, 创新工场、搜狗、今日头条奖励200万,邀你来挑战!

创新工场  · 公众号  · 科技创业  · 2017-08-14 18:44

正文


今天,AI界迎来了一场盛事。


创新工场、搜狗和今日头条三家国内人工智能领域领军企业聚在一起,携手发起了“ AI Challenger全球AI挑战赛 ”, 面向全球AI科研人才广发英雄帖,参与人体骨骼关键点检测等五项AI技术比赛。




主办方为首届竞赛准备了 200万元人民币 的奖金,供参赛优秀选手分享。参赛选手还有机会进入三家主办方 工作、实习或获得投资 ,并有机会获得十余位人工智能领域顶级专家评委的指导和评价。


此外,主 办方还决定将超过 1000万 条中英文翻译数据、 70万 个人体动作分析标注数据、 30万 张图片场景标注和语义描述数据 公开 这是国内迄今公开的规模最大的科研数据集。


创新工场创始人兼CEO、创新工场人工智能工程院院长李开复,搜狗CEO王小川,今日头条顾问、技术战略研究院院长张宏江等人出席了今天的发布会。


李开复在致辞中说, AI Challenger不仅仅是一个奖金200万的竞赛活动,评选结果出来就结束了。这是推进中国AI人才成长的催化剂。三五年后我们再回顾,如果 中美AI人才的落差 消失了,希望我们会想到AI Challenger在这样重大过程中扮演的一个小小角色。


竞赛面向社会,即日起开始报名。参赛选手可以登入活动官网 challenger.ai ,了解比赛信息、评选细节,并完成个人信息实名验证。 9月4日,大赛将开放训练数据集以及验证数据集,参赛选手可以自行下载数据。总决赛巅峰对决将在 12月中旬举行



AI Challenger全球挑战赛启动视频


一、AI Challenger挑战赛是什么?


“AI Challenger全球AI挑战赛” 是一个非商业化的竞赛平台,面向人工智能领域科研人才,致力于打造大型、全面的科研数据集与世界级竞赛平台。


大赛由 创新工场、搜狗、今日头条 联合发起,旨在从科研角度出发,满足学术界对高质量数据集的需求,推进人工智能在科研与商业领域的结合,促进世界范围内人工智能研发人员共同探索前沿领域的技术突破及应用创新。



2017年首届AI Challenger将区分为 五个竞赛任务 供参赛者组队报名,包括:人体骨骼关键点检测竞赛、图像中文描述竞赛、场景分类竞赛、英中机器文本翻译竞赛、英中机器同声传译竞赛。


大赛面向全社会开放, 个人、高等院校、科研单位、互联网企业、创客团队 等人员均可报名参赛。创新工场、搜狗、今日头条现任全职及兼职员工,数据集建立及维护过程中能接触到数据的人员不得参赛。


2017年首届竞赛即日起开始报名,参赛队伍可1-3人组队,所有选手必须完成个人信息实名认证( 登入challenger.ai官网 )。9月4日,大赛将开放训练数据集以及验证数据集,参赛选手可以自行下载数据。此后,各路高手将展开为期三个月的比拼,并于今年12月中旬进行总决赛巅峰对决。


首届竞赛设有共计 200万元 人民币的奖金池,供参赛的优秀选手分享。此外,他们还将获得进入三家主办方 工作、实习或获得投资 的机会,并有机会在国际顶级学术会议上分享获奖心得,得到如上海科技大学教授马毅、旷视科技首席科学家孙剑、前Google研究院高级管理科学家林德康等十余位人工智能领域顶级专家评委的指导和评价。



二、为什么要发起AI Challenger?


在人工智能领域,数据的 质和量 是科学研究与产品技术研发的核心。高质量训练数据对机器学习模型的建立和优化有关键性的作用。建立大规模、高水准的标注数据集,是推动AI科研和技术前进的驱动力。


创新工场、搜狗、今日头条三方都认为, 数据、算法、计算能力 是人工智能的三大基石,其中,数据更是人工智能科研最宝贵的资产。没有足够好的数据,就无法取得世界顶级的科研成果。在此方面,学术界和创业团队所能获得的数据资源 通常远少于产业界中的顶级企业 。因此,将高质量的数据集建设与科学研究、技术产品研发、人才培养有效结合,对人工智能发展具有重大意义,也是身为产业先驱应尽的一份社会责任。


对于发起本次合作,创新工场创始人兼CEO、创新工场人工智能工程院院长李开复说:



在30多年前自己作为AI科研人员的时代,能接触到真实世界的海量数据是个 遥不可及的梦想 。如今,伴随互联网和移动互联网而来的大数据、高效的计算机运算能力等条件都齐备的环境下,有了AI Challenger这样的开放数据集和竞赛平台对于AI科研与开发人员是个 难得的契机 。AI Challenger致力于解决数据集缺失的问题,为人工智能科研免费提供 海量数据 ,辅以强大的学术界和产业界专家指导,全力支持国内外的高校、研究机构、产业界科研人才一起来挑战人工智能的未来可能性。


AI Challenger也是对国际知名AI竞赛的 致敬和延续 。上月,举办了八届的ImageNet挑战赛由创始人之一李飞飞博士正式宣布退出历史舞台。国际上,ImageNet挑战赛曾是每年企业和研究者都极为看重的活动。另一机器学习竞赛平台Kaggle着眼于真实数据和真实问题的解决方案,同样吸引了全球将近百万数据科学家和研究者进行挑战和探索其多元化的公开数据集。


三、主办方能提供什么?


2017年是AI Challenger的诞生年,创新工场、搜狗、今日头条三方将开放 百万量级的计算机视觉数据集、千万量级的机器翻译数据集 ,并主办多条细分赛道的AI竞赛。


将开放的数据集包括:超过1000万条 中英文翻译数据 (用于同声传译等自然语言处理的各类应用)、70万个 人体动作分析标注数据 (用于无人驾驶、安防、体感游戏等场景)、30万张 图片场景标注和语义描述数据 (用于图像和视频内容理解、图像标题自动生成等各类应用)。这是国内迄今公开的规模最大的科研数据集。



未来三年,AI Challenger将投入 数千万启动基金 ,解决数据集缺失的问题,为人工智能科研提供海量数据及算法竞赛、人才交流平台,辅以强大的学术界和产业界专家指导,全力支持与帮助国内外的高校、研究机构、产业界的研发团队。


三个主办方将持续投入,建设和发布更大规模的AI前沿领域高质量数据集,涵盖自动驾驶、智慧医疗、智慧金融、机器人等行业应用中的核心AI需求,主办世界级的年度AI竞赛,吸引世界范围内的高端AI研发人才,促进人工智能科研生态的持续健康发展。

四、凭什么能创建此次世界级大赛?


创新工场、搜狗与今日头条是国内最专注于人工智能领域的三家公司。创新工场作为业内最早在人工智能领域布局的投资机构之一,在2016年下旬成立了 人工智能工程院 ,积极推动AI的研究与技术朝向产业实践转化。


搜狗是最先将人工智能技术应用落地的互联网公司, 语音、图像识别、自然语言理解、机器翻译 等技术均已应用于搜狗相关产品当中,包括搜狗搜索、输入法、机器同传等产品,在产业实践中积累了大量语音、文本、图像、视频等数据集,同时沉淀了深厚的计算机视觉、自然语言理解、数据挖掘等方面的技术能量。


搜狗CEO王小川表示:



人工智能本质是建立在 大数据和机器学习 的基础之上。目前,搜狗以语言为核心的人工智能技术,已经通过问答、语音和翻译等形态应用于搜狗搜索和输入法等诸多产品中,并积累了大量的用户与数据规模。其中搜狗的语音输入日频次已达 2.6亿次 ;搜狗的实时机器翻译技术也在包括乌镇世界互联网大会等数百场会议上进行了落地应用。我们希望能够利用搜狗的优质数据和应用场景助力AI Challenger全球AI挑战赛,让全球科研工作者取得更大的成就与突破,一起推动人工智能行业更快、更好地发展。


今日头条同样是最早一批将人工智能技术应用于产品的公司,也是把算法、工程、产品、运营在人工智能应用层面结合得最好的一家公司,在产业实践中积累了大量文本、图像、视频等数据集,并沉淀了深厚的计算机视觉、自然语言理解、数据挖掘等方面的技术能量。


今日头条顾问、技术战略研究院院长张宏江表示:



依托大数据和人工智能技术,今日头条希望实现更高效的信息流动。身处人工智能行业,我们深知, 人才和数据是整个行业的未来 。这次头条与搜狗、创新工场联合举办AI Challenger挑战赛的初衷,就是希望通过 开放数据 ,吸引更多优秀人才参与到算法模型的开发、设计中来。比赛结束后, 所有数据集会向社会全面开放 ,我们希望尽一些微薄的力量,为学术界、学术人才提供帮助,加强产学研结合,共同推动中国人工智能行业的发展。


AI Challenger的诞生,也是三方拿出实际行动推动人工智能行业发展一次意义重大的 集体宣誓


李开复:让AI创业者和巨头并肩,

让中美AI人才差距 缩小


在发布会现场,创新工场创始人兼CEO、创新工场人工智能工程院院长李开复,结合自己的成长经历,讲述了发起AI Challenger挑战赛的初衷。

人工智能是推进人类进步的下一个引擎,而 数据就是燃料 。要做世界最好的无人驾驶、机器翻译,前提必须要有 世界最大、最精确标注的 文本和数据集,没有这样数据集,做出来可能是一个 玩具 ,而不是一个真正可用的系统。


所以AI 今天 的成就,很大程度上要感谢大量并且标准的数据库。数据库量大,才能做出最精准的系统,而且真正地发挥最强大算法的力量(其实20年前就有人在做类似今天深度学习的算法,只是数据量不够,一直没有发挥出作用)。数据库标准化,才能让大家彼此切磋,胜出者知道自己 不是靠数据或侥幸 ,而所有参赛者都可以彼此学习,参考胜出者的算法,共同进步。

记得我在1983-1988年做语音识别领域的博士论文的时候,正好是业界第一次受益于 “大数据+标准化” 的时机。

在标准化之前,美国几大语音识别实验室(MIT, CMU, SRI, IBM, 贝尔实验室)都是各用各的数据库,测试数据不同,训练数据不同,使用的语言模型不同,测试的词汇量不同,所以都各称业界第一,也无法评比。


每个大公司的科研单位有自己的商业需求(比如说在语音识别方面,当年做打字机的IBM想做语音打字机,垄断美国电信的AT&T要求贝尔实验室识别电话号码),有不同量级的训练库,有不同计算力和其它资源,所以这两个大公司并没有动力来帮助小公司或学校。而小公司和学校,往往只有资源做些较小的数据集,结果一般也不如大公司的好。


最后导致的问题包括:


因为测试语料库不同,最后识别结果,大家 无法复制,也无法验证 。彼此不认可,而且因为数据 没有打通 ,算法就更不可能打通了。

因为每家做的领域不同,最后的 结果都不可比 。有些领域词汇量小,比较容易,但是做出结果也可能 不能通用 。有些领域词汇量大,但是约束很多,所以能说的内容不多,导致比较容易识别,也不能通用。

因为每家训练集不一样大, 而训练集越大,一般结果越好。 所以,有可能结果做的好,被认为并不是靠算法,而是靠 数据量大

对于学术单位来说,最大的问题来自于没有 足够的资源 (也没有兴趣)收集、清洗、标注大量的语料。对于小公司来说, 语料和计算力 都是问题。

在1985年,美国标准局 (National Institute of Standards and Technology)看到了上面你的问题影响了科研进步,所以在语音识别问题上。标准局设定了标准的语音和语言的训练集、测试集。要求每个学校的每个团队都用同样的训练集来训练模型,可以自己调好系统参数,比赛最后一天大家拿到数据,有一天时间跑出结果,大家评比。


我的博士论文就受惠于这个标准数据集和测试。记得1988年的评比,我的博士论文系统胜出,达到 96%的识别率 。最重要的并不是谁胜谁负,而是结果出来以后,大家都相信了我用的机器学习方法和隐马可夫模型算法,并且抛弃了不可行的专家系统(专家系统只达到60%的识别率)。他们都是用了全新的模式,在这个基础上不断进步。在我的博士论文基础上,后来的Nuance,微软、苹果等公司做出了业界最领先的产品。

所以使用大量的数据和标准的测试方法,可以带来:


研究单位没有造假作弊的空间,因为 结果皆可复制

研究单位彼此信任结果、切磋学习,大家愿意学习使用胜出者的算法和模型,在那基础上更上一层楼。

从数据公用,结果对比,很容易再走向算法和模型共享。这样就很容易 推动整个研究界的科研水平。 比如说我的博士论文结束后,我们就开源了算法,也推动了 微软、苹果等公司的基础,让它们能够立即进入语音识别的领域。

学术单位可以专注研究,不必花时间在收集数据等琐碎又耗资源的事情。小公司也可以和大公司一样,迅速打造系统。


语音之后,在视觉领域有李飞飞启动的ImageNet,之后有Kaggle等比赛。今天我们又推出了AI Challenger,都是希望达到这些目的。

今天,我们看到国务院文件希望推动国内AI教育和人才的培养,也看到国内这方面现在的挑战:除了 互联网巨头 之外,很少有单位能有足够的数据资源和计算资源,来做最前沿的技术和发明。我们推出AI Challenger可以帮助:


提供大量的数据集。

提供计算力,包括GPU的资源。

让资源匮乏的小实验室、小创业公司,甚至学生都可以学习AI,并知道自己的水平和进度。

提升整体中国AI科研水平,让每个高校,每个实验室,每个初创公司都可以彼此切磋,彼此学习。

所以,AI Challenger不仅仅是一个奖金200万的活动,评选结果出来就结束了。这是 推进中国AI人才成长的催化剂 。三五年后我们再回顾,如果中国和美国AI人才的落差消失了, 希望我们会想到AI Challenger在这样重大过程中扮演的一个小小角色。

更多AI Challenger详情与赛事说明参见官网:challenger.ai

点击 阅读原文 ,即可跳转。


观看发布会回放可添加赛事小助手(aiczhushou)入群,后续还有更多官方福利(与优秀选手互动、第一手赛事信息、独家大咖讲堂等)在赛事群放送。


关于创新工场

创新工场是由李开复博士于2009年9月创办的创业投资机构,旨在用全方位的创业服务帮助中国年轻创业者打造世界级企业。创新工场首创“投资+孵化”模式,凭借专业化、国际化的特色和优势,已经迅速成长为国内最具影响力的科技型创业投资机构之一,目前管理超过80亿的双币基金。从2013年起,创新工场所投AI公司超过30家,累计投资金额超过1亿美金。2016年9月成立创新工场人工智能工程院,李开复博士亲任院长,全面推进人工智能领域的人才培养、创业项目孵化、开放生态系共建、科研与产业对接等系列工作。







请到「今天看啥」查看全文