专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

【ImageNet后计算机视觉顶级赛事】中国团队力克谷歌等包揽MS COCO竞赛3项冠军

新智元 · 公众号 · AI · 2017-10-30 13:57

正文

【AI WORLD 2017世界人工智能大会倒计时 9 天】

“AI达摩”齐聚世界人工智能大会，AI WORLD 2017议程嘉宾重磅发布

在2017年11月8日在北京国家会议中心举办的AI World 2017世界人工智能大会上，我们邀请到阿里巴巴副总裁、iDST副院长华先胜，旷视科技Face++首席科学家、旷视研究院院长孙剑博士，腾讯优图实验室杰出科学家贾佳亚教授，以及硅谷知名企业家、IEEE Fellow Chris Rowen，共论人脸识别等前沿计算机视觉技术。

抢票链接：http://www.huodongxing.com/event/2405852054900?td=4231978320026

大会官网：http://www.aiworld2017.com

新智元报道

来源：MS COCO；ICCV 2017

报道：闻菲

【新智元导读】图像识别领域的权威标杆 MS COCO 2017 竞赛结果公布。COCO 竞赛代表了继 ImageNet 后图像识别的最高水平。今年，来自旷视、商汤、北大、北航、中科院自动化所的众多中国团队，几乎占据了各项任务的第一，超越了谷歌、Facebook。

MS COCO（Microsoft Common Objects in Context，常见物体图像识别）竞赛是继 ImageNet 竞赛（已停办）后，计算机视觉领域最受关注和最权威的比赛之一，是图像（物体）识别方向最重要的标杆（没有之一），也是目前国际领域唯一能够汇集谷歌、微软、Facebook 三大巨头以及国际顶尖院校共同参与的大赛。

今年 COCO 竞赛，微软、Facebook、谷歌、商汤、旷视等企业，以及卡内基梅隆大学、北京大学、香港中文大学、上海交通大学等高校纷纷参与，竞争激烈。

COCO 2017 竞赛结果：中国团队刷榜，超越谷歌、Facebook

COCO 竞赛的结果在刚刚结束的 ICCV 2017 “Joint COCO and Places Recognition Challenge Workshop” 公布。

物体检测：侧重对物体的理解

物体检测（边界框 BBox）：旷视研究院团队第一，港中文&北大团队 UCenter 第二，微软亚洲研究院（MSRA）团队与来自 FAIR 的团队分别获得第三、第四

语音分割 Segmentation：港中文&北大团队 UCenter 第一，旷视研究院团队第二，FAIR 和 MSRA 分别获得第三、第四
人体关键点检测：旷视研究院第一，北航&商汤团队 OKS 第二

背景语义分割（Stuff Challenge）：FAIR 团队第一，牛津视觉实验室第二

Places 2017：侧重对场景的理解

Places 分为场景分割、物体分割和边缘检测三项任务。其中，物体分割（Instance Segmentation）任务，旷视击败了谷歌，赢得了冠军。

由于时差关系，我们还没有得到确认后的结果。但根据 Workshop 官方介绍，在 Places 环节受邀发表演讲的是来自谷歌（G-RMI）、今日头条（WinterIsComing，ByteDance）和中科院自动化所与京东合作的团队（CASIA_IVA_JD）。这无疑是后两个团队在 Places 2017 竞赛中取得好成绩的证明。

MS COCO竞赛：ImageNet 后图像识别最高水平

MS COCO 数据集是大规模物体检测（detection）、分割（segmentation）和图说（captioning）数据集，包括 330K 图像（其中超过 200K 有注释），150 万图像实例，80 个物体类别，91 种物质（stuff）类别，每幅图有 5 条图说，250,000 带有关键点的人体。

与关注整体图像的 ImageNet 图像分类任务相比，COCO 中的物体检测任务更关注图像中出现的每个物体的个体（比如各种小物体，各种遮挡物体），因此要求算法对图像细节有更好的理解。MS COCO 竞赛也代表了继 ImageNet 后的图像识别的最高水平。

COCO 竞赛从 2015 年开始举办，至今已经三届，前两届物体检测冠军分别来自微软亚洲研究院（MSRA）和谷歌。

今年的 COCO 包含四项任务：Detection Challenge（物体检测）、Instances segmentation（物体分割）、(Human) Keypoint Challenge（人体关键点检测）、Stuff Segmentation（背景语义分割）。

物体检测竞赛

其中，物体检测和物体分割都属于 COCO 2017 检测竞赛（Detection Challenge），参赛队伍可以通过边界框和语义分割两个方向来进行图像（物体）检测。

人体关键点检测

COCO 2017 人体关键点竞赛需要在具有挑战性、不受控制的条件下定位人体关键点，涉及到同时检测图像中的人体，并对其关键点进行定位（图像中人体的位置在测试时没有给出）。

COCO 2017 人体关键点竞赛整体延续了去年的总体数据和指标。训练、验证和测试数据集包含超过 20 万张图像和 25 万个有关键点标记的人体实例。其中，训练和验证集含有超过 15 万人和 170 万个标记的关键点。今年竞赛与去年主要的差异体现在：1、测试集只包含开发用和竞赛用两个部分（test-dev & test-challenge）；2、训练/验证集的排列方式不同。

场景（Places Challenge 2017）

场景（Places）是由 MIT 和 CMU 等高校牵头，在今年新设立的一项任务，旨在补充 COCO 竞赛，深度理解图像场景。

Places 2017 共设有三个任务：Scene Parsing（场景分割）、Instance Segmentation（物体分割）、Semantic Boundary Detection（边缘检测）。Places 竞赛的数据集来自 ADE20K，其中训练集 20K，验证集 2K，测试集 3K；数据全都 pixel-wise 注释。

背景语义分割

COCO 2017 背景语义分割竞赛（Stuff Segmentation Challenge）旨在推动现有技术在背景（Stuff）语义分割中的应用。比较起来看，COCO 2017 Detection Challenge 针对的是事物类（人，汽车，elephant），Stuff 挑战主要集中在物质类（草、墙、天）。

事物（Things）是具有特定尺寸和形状的物体，通常由许多部分组成。而 Stuff 是背景物体，拥有均匀或重复的精细尺度属性，没有具体或独特的空间范围或形状。Stuff 覆盖 COCO 中约 66％的像素，能让机器解释图像的重要方面：场景类型；图像中可能存在哪些类，它们的位置在哪里；场景的几何属性。

旷视研究院三项第一，新智元世界人工智能大会，孙剑解读技术实力

本次 COCO 2017 竞赛，旷视研究院团队可能是最大赢家：参与了 COCO 物体检测、物体分割和人体关键点检测三项任务的挑战，取得了两项第一（物体检测、人体关键点），一项第二（物体分割）；还在 Places 语义分割环节战胜谷歌取得第一。

对于产业界来说，机器对于人体、物体和场景的理解十分重要。旷视科技首席科学家、研究院院长孙剑表示，这次旷视科技能够一举在这个竞争最激烈的比赛中，第一次代表中国企业拿到分量最重的三项冠军，展示了旷视的技术实力，也是对他最好的生日礼物。

其中所说的 2015 年带领微软团队获得 ImageNet 和 COCO 五项冠军，所依靠的核心是深度残差网络（ResNet）。

ResNet 也正是 DeepMind 让世界再次轰动的最强棋手 AlphaGo Zero 性能提升的两大核心要素之一。

ResNet 在 2015 年由孙剑在微软领导的视觉团队率先提出，除了当年的 MS COCO，在 ImageNet 竞赛中也获得冠军。ResNet 一个重要的突破是实现了 152 层的网络深度，这让一些非常复杂的函数做映射时的效率与有效性得到了极大的提升。结合了 ResNet 的强大网络使 AlphaGo Zero 能够快速、准确地学习每一子的落子概率，并对整个棋局进行判断。

11月8日，在新智元 AI World 2017 世界人工智能大会上，旷视科技首席科学家、旷视研究院院长孙剑博士将发表演讲，解读 ResNet，聚焦人脸识别等视觉前沿技术和应用。

孙剑博士介绍说：“如果回顾一下这几年视觉计算的方法，我们会发现我们已经从人工设计特征，变成了人工设计神经网络结构。从 2012 年的 AlexNet 开始，到 2014 年的 GoogleNet & VGG，到 2015 年的 ResNet，再到今天的各种 Nets。如果我们从计算的角度上看，我们会发现在这个 Spectrum，主流方向是计算量愈来愈大。

“但是，相反的方向研究缺比较少。我们知道今天智能计算不仅要运行在云上，也要运行在端上。对于手机或嵌入式设备，计算量可能只有5-10M FLOPS，我们如何设计在端计算上最好的神经网络呢？如何填补这个空白？

“在这个演讲中，我分享一下 Face++ 旷视研究院最近研究成果 ShuffleNet。ShuffleNet 的计算设计目标是 10-50M FLOPS，它的核心思想是进一步把滤波器分组的思想应用的 1x1 卷积上，使用一个通道间的 shuffling 操作，有效增强了分组 channel 间的信息交换。这个网络在 10-100M FLOPS 上的性能现在是最好的。我也会展示如何将 ShuffleNet 应用于 Face++ 的产品中，例如我们最近推出的基于 FPGA 的全帧率、全画幅智能人像抓拍机，以及手机端应用于 vivo、小米等的人脸解锁技术。”

11月8日，欢迎来新智元世界人工智能大会，深入了解AI 技术进展和产业情况，马上抢票！

【AI WORLD 2017世界人工智能大会倒计时 9 天】点击图片查看嘉宾与日程。

抢票链接：http://www.huodongxing.com/event/2405852054900?td=4231978320026

AI WORLD 2017 世界人工智能大会购票二维码：