专栏名称: AI科技大本营
迎来到AI科技大本营。这里汇集了优秀的AI学习者,技术大咖和产业领袖;提供接地气的实战课程。在这里和优秀的人一起成长。
目录
相关文章推荐
爱可可-爱生活  ·  【[228星]Flock:基于工作流的低代码 ... ·  昨天  
新智元  ·  谷歌Fellow级大佬出走!17年老将吴永辉 ... ·  2 天前  
黄建同学  ·  AI Agent的评估包括↓一、核心能力• ... ·  2 天前  
营销之美  ·  DeepSeek使用图鉴:人类和AI谁在玩弄谁? ·  3 天前  
营销之美  ·  DeepSeek使用图鉴:人类和AI谁在玩弄谁? ·  3 天前  
爱可可-爱生活  ·  【HunyuanVideo-Training ... ·  3 天前  
51好读  ›  专栏  ›  AI科技大本营

解读 | 2019年10篇计算机视觉精选论文(中)

AI科技大本营  · 公众号  · AI  · 2019-12-22 21:34

正文


导读:2019 年转眼已经接近尾声,我们看到,这一年计算机视觉(CV)领域又诞生了大量出色的论文,提出了许多新颖的架构和方法,进一步提高了视觉系统的感知和生成能力。因此,我们精选了 2019 年十大 CV 研究论文,帮你了解该领域的最新趋势。


我们看到,近年来,计算机视觉(CV)系统已经逐渐成功地应用在医疗保健,安防、运输、零售、银行、农业等领域,也正在逐渐改变整个行业的面貌。


今年,CV 领域依然硕果累累,在各个顶尖会议中诞生了多篇优秀论文。 我们从中精选了 10 篇论文以供大家参考、学习。 限于篇幅,我们将解读分为了上、中、下三个篇章分期进行推送。


以下是这 10 篇论文的目录:


1.EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks

EfficientNet: 卷积神经网络模型缩放的反思


2.Learning the Depths of Moving People by Watching Frozen People

通过观看静止的人来学习移动的人的深度


3.Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation

增强的跨模态匹配和自我监督的模仿学习,用于视觉语言导航


4.A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction

非视线形状重构的费马路径理论


5.Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Object Detection

Reasoning-RCNN: 将自适应全局推理统一到大规模目标检测中


6.Fixing the Train-Test Resolution Discrepancy

修复训练测试分辨率差异


7.SinGAN: Learning a Generative Model from a Single Natural Image

SinGAN: 从单个自然图像中学习生成模型


8.Local Aggregation for Unsupervised Learning of Visual Embeddings

视觉聚合的无监督学习的局部聚合


9.Robust Change Captioning

强大的更改字幕


10.HYPE: A Benchmark for Human eYe Perceptual Evaluation of Generative Models

HYPE: 人类对生成模型的 eYe 感知评估的基准


前三篇论文的详细解读在此,大家可点击图片或下方文字进行阅读:


解读 | 2019 年 10 篇计算机视觉精选论文(上)


接下来,我们将 从核心思想、关键成就、未来技术应用等 方面,详细介绍第 4-7 篇论文,同时欢迎大家继续关注后续的内容推送。

4

非视线形状重构的费马路径理论
论文地址: http://1t.click/b49X

摘要


我们提出了一个新的 理论,即在一个已知的可见场景和一个不在瞬态相机视线范围内的未知物体之间的 Fermat path。 这些光路要么遵守镜面反射,要么被物体的边界反射,从而编码隐藏物体的形状


我们 证明费马路径对应于瞬态测量中的不连续性。 然后,我们推导出一种新的约束,它将这些不连续处的路径长度的空间导数与表面法线相关联。


基于这一理论,我们提出了一种名为 Fermat Flow 的算 法,来估计非视距物体的形状。 我们的方法首次允许复杂对象的精确形状恢复,范围从隐藏在拐角处以及隐藏在漫射器后面的漫反射到镜面反射。


最后,我们的方法与用于瞬态成像的特定技术无关。因此,我们展示了使用 SPAD 和超快激光从皮秒级瞬态恢复的毫米级形状,以及使用干涉测量法从飞秒级瞬态微米级重建。我们相信我们的工作是非视距成像技术的重大进步。


本文的核心思想


•现有的对隐藏物体进行轮廓分析的方法,取决于测量反射光子的强度,这需要假设朗伯反射和可靠的光电探测器。
•研究小组建议通过依靠费马原理施加 的几何约束,来重构非视线形状:
  • 费马路径对应于瞬态测量中的不连续性。
  • 具体而言,可以将瞬态测量中的不连续性识别为有助于瞬态的费马路径的长度。
  • 给定费马路径长度的集合,该过程将为 NLOS 表面生成一个定向的点云。


关键成就


•从引入的理论推导出的费马流动算法,可以成功地重构出不依赖于特定瞬态成像技术的隐藏物体表面。
•费马路径理论适用于以下情形:
  • 反射式 NLOS(环角);
  • 透射式 NLOS(透过扩散器)。


本文在人工智能界的荣誉


该论文在计算机视觉和模式识别的顶尖会 议 CVPR 2019 上获得了最佳论文奖。


未来的研究领域是什么?


•探索此处描述的几何方法与新介绍的用于对隐藏对象进行概要分析的反投影方法之间的联系。
•将几何和反投影方法结合起来用于其他相关应用,包括声学和超声成像,无透镜成像和地震成像。


有哪些可能的业务应用程序?


•摄像机或传感器可 以「看到」超出其视野的增强的安全性。
•自动驾驶汽车 可能会「看见」拐角处。

5



Reasoning-RCNN: 将自适应全局推理统一到大规模目标检测中
论文地址: http://1t.click/b46x


摘要


在本文中,我们解决了具有数千个类别 的大规模对象检测问题,由于长尾数据分布,严重的遮挡和类别模糊性,这带来了严峻的挑战。 然而,主要对象检测范式是通过在不考虑对象之间关键的语义依赖性的情况下,分别处理每个对象区域而受到限制的。

在这项工作中,我们引入了一种新颖的 Reasoning-RCNN,通过利用各种人类常识知识,赋予所有检测网络在所有对象区域上自适应全局推理的能力。 我们不只是直接在图像上传播视觉特征,而是在全球范围内发展所有类别的高级语义表示,以避免图像中分散注意力或不良的视觉特征。 具体来说,基于基本检测网络的特征表示,提出的网络首先通过收集每个类别的先前分类层的权重,来生成全局语义池,然后通过参加全局语义池中的不同语义上下文,来自适应地增强每个对象的特征。

我们的自适应全局推理不是从嘈杂的所有可能的语义信息中传播信息,而是自动发现特征演变的大多数相对类别。我们的 Reasoning-RCNN 轻巧灵活,足以增强任何检测主干网络,并且可扩展以集成任何知识资源。在对象检测基准上进行的可靠实验显示了我们的 Reasoning-RCNN 的优势,例如,在 VisualGenome 上实 现了约 16% 的改进,在 mAP 方面实现了 ADE 的 37% 的改进,在 COCO 方面实现了 15% 的改进。


本文的核心思想


•大规模物体检测面临许多重大挑战,包括高度不平衡的物体类别,严重遮挡,类歧义,小尺寸物体等。

•为了克服这些挑战,研究人员引入了一种新颖的 Reasoning-RCNN 网络,该网络可以对具有某些关系或相似属性的类别进行自适应全局推理:
  • 首先,该模型通过收集先前分类层的权重,在大规模图像中的所有类别上生成全局语义池。
  • 其次,按类别划分的知识图被设计为对语言知识(例如属性,共现,关系)进行编码。
  • 第三,通过关注机制对当前图像进行编码,以自动发现每个对象最相关的类别。
  • 第四,增强的类别通过软映射机制映射回区域,从而可以细化前一阶段不准确的分类结果。
  • 第五,将每个区域的新增强功能与原始功能连接在一起,以端到端的方式增强分类和定位的性能。


关键成就


•Reasoning-RCNN 优于当前的最新对象检测方法,包括 Faster R-CNN,RetinaNet,RelationNet 和 DetNet。
•特别是,该模型在平均平均精度(mAP)方面实现了以下改进:
  • 1000 个类别的 VisualGenome 占 15%;
  • 3000 个类别的 VisualGenome 占16%;
  • ADE 占 37%;
  • MS-COCO 的 15%;
  • Pascal VOC 的 2%。


本文在人工智能界的荣誉


该论文在计算机视觉的顶尖 会议 CVPR 2019 上被重点进行介绍。


未来的研究领域是什么?


•将 Reasoning-RCNN 中使用的推理框 架嵌入到其他任务中,包括实例级细分。


有哪些可能的业务应用程序?


•所提出的方法可以显着提高依赖于大规模对象检测(例如,城市街道上的威胁检测)的系统的性能。


在哪里可以获得实现代码?


•GitHub 上提供了 Reasoning-RCNN 的实现代码:
https://github.com/chanyn/Reasoning-RCNN。


6



修复训练测试分辨率差异
论文地址: https://arxiv.org/pdf/1906.06423.pdf

摘要

数据扩充是训练神经网络进行图像分类的关键。 本文首先显示,现有的增强会导致分类器在训练和测试时,看到的典型对象大小之间出现显著差异。 我们通过实验验证,对于目标测试分辨率,使用较低的训练分辨率,可以在测试时提供更好的分类。

然后,我们提出了一种简单而有效的策略,以在训练分辨率和测试分辨率不同时优化分类器性能。 它仅涉及在测试分辨率下计算机上廉价的网络微调。 这样可以使用小型训练图像来训练强大的分类器。

例如,通过在 128×128 图像上训练的 ResNet-50,在 ImageNet 上获得 77.1% 的 top-1 精度,在 224×224 图像上训练出的 ResNet-50 达到 79.8%。 另外,如果我们使用额外的训练数据,则使用具有 224×224 图像的 ResNet-50 train 可获得 82.5% 的效果。

相反,以 224×224 的分辨率对 9.4 亿张公共图像进行弱监督预训练的 ResNeXt-101 32×48d 并进一步优化测试分辨率 320×320 时,我们获得的测试 top-1 准确性为 86.4% (前 5 名: 98.0%)(单作)。 据我们所知,这是迄今为止 ImageNet 最高的单幅 top-1 和 top-5 精度。



本文的核心思想

•图像预处理程序在训练和测试时的差异会对图像分类器的性能产生不利影响:
  • 为了增加训练数据,通常的做法是从图像(即分类区域或 RoC)中提取具有随机坐标的矩形。
  • 在测试时,从图像的中央部分提取 RoC 。
  • 这导致分类器在训练和测试时看到的对象大小之间存在显着差异。
•为了解决这个问题,研究人员建议在训练和测试时共同优化图像的分辨率和比例, 分析表明:
  • 在测试时增加图像作物的大小,可以补偿训练时随机选择 RoC;
  • 在训练中使用比测试时使用更低分辨率的农作物可以改善模型的性能。
•因此,Facebook AI 团队建议保持相同的 RoC 采样,并且仅微调网络的两个层以补偿作物大小的变化。

关键成就

•通过获取以下内容来提高 ResNet-50 模型在 ImageNet 上进行图像分类的性能:
  • 在 128×128 图像上训练时,top-1 精度为 77.1%;
  • 在 224×224 图像上训练时,top-1 精度为 79.8%;
  • 在带有额外训练数据的 224×224 图像上进行训练时,top-1 精度为 82.5%。
•使 ResNeXt-101 32×48d 在 9.4 亿张公共图像上以 224×224 图像的分辨率进行预训练,从而在 ImageNet 上进行图像分类的新技术:
  • top-1 准确性为 86.4%;
  • top-5 准确性为 98.0%。


有哪些可能的业务应用程序?

•建议的方法可以提高用 于大型数据库中自动图像组织,股票网站上的图像分类,可视产品搜索等的 AI 系统的性能。


在哪里可以获得实现代码?

•作者提供了引入的方法的官方 PyTorch 实现,以解决训练测试分辨率的差异。

GitHub 地址:
https://github.com/facebookresearch/FixRes


7

SinGAN: 从单个自然图像中学习生成模型
论文地址:






请到「今天看啥」查看全文