本周有挺多重要的研究成果。数天前 CMU、Facebook 公布 AI 玩多人德州扑克取得的新进展,该研究登上了 Science。此外,谷歌博客、arXiv 上均有较受关注的全新论文,例如移动设备 GPU 上运行的亚毫秒级人脸检测模型 BlazeFace。
1.标题:Superhuman AI for multiplayer poker
-
作者:Noam Brown,Tuomas Sandholm
-
链接:https://science.sciencemag.org/content/early/2019/07/10/science.aay2400
摘要: 近几年,AI 研究取得了很大的进展,特别是在各种游戏中。扑克游戏就是其中一种。过去 AI 的基准成绩总是在双玩家的条件下取得的。然而,扑克在传统上是一个超过两个玩家的多人游戏。多人游戏总是比双人游戏带来更多的问题,而解决这些问题也被视为是 AI 研究的里程碑。在本文中,研究人员提出了一个名为 Pluribus 的 AI。AI 在六人无限德克萨斯扑克游戏中,超过了顶级人类玩家的水平。
推荐: AI 在多人德州扑克游戏上战胜了人类顶级玩家 ,每小时赢 1000 美元,而且训练只需要一个云计算服务器,不用 GPU,耗费不到 150 美元。论文已登「Science」。
2.标题:Adversarial Objects Against LiDAR-Based Autonomous Driving Systems
-
作者:Yulong Cao, Chaowei Xiao, Dawei Yang, Jing Fang, Ruigang Yang, Mingyan Liu, Bo Li
-
链接:https://arxiv.org/pdf/1907.05418.pdf
摘要: 深度神经网络(DNN)容易受到对抗样本的攻击,这一点已经被许多研究所证明。为了证明这种攻击在现实世界构成威胁,一些研究提议生成能够迷惑分类器识别停车标志的实体贴纸或可打印贴图,如特斯拉对抗攻击实验。但是,自动驾驶系统并不仅仅是图像分类器。为了获得更清晰的感知影像,大多数自动驾驶检测系统配备有激光雷达或普通雷达(无线电探测与测距)设备,这些设备能够借助于激光束直接探查周围 3D 环境。这就提出了一个疑问:贴图干扰是否会影响激光雷达扫描的点云?
为了回答这一问题,研究者提出了一种基于优化的方法——LiDAR-Adv,以生成可以在各种场景下规避激光雷达检测系统的对抗样本,从而揭露激光雷达自动驾驶检测系统的潜在漏洞。
研究者首先使用一种基于黑盒进化的算法展示了相关漏洞,接着使用基于梯度的方法 LiDAR-Adv 探索强大的对抗样本造成的影响有多大。
为了评估 LiDAR-Adv 在现实世界中的影响,研究者对生成的对抗样本进行 3D 打印,并在百度阿波罗自动驾驶平台上测试它们。结果显示,借助于 3D 感知和产品级多阶段检测器,他们能够误导自动驾驶系统,实现不同的对抗目标。
推荐: 密歇根大学、UIUC 联合百度 使用 3D 打印的物体制作对抗样本,可以有效欺骗自动驾驶车辆的三维传感器。论文说明,即使是使用昂贵的激光雷达也不一定保险,提升算法本身的鲁棒性才是解决方法。
3.标题:BlazeFace: Sub-millisecond Neural Face Detection on Mobile GPUs
-
作者:Valentin Bazarevsky , Yury Kartynnik , Andrey Vakunov, Karthik Raveendran , Matthias Grundmann
-
链接:https://arxiv.org/pdf/1907.05047
摘要: 研究人员在论文中提出了一种名为「BlazeFace」的人脸识别检测器。这一模型轻量化且性能很好,可以在移动设备 GPU 中进行推断,运行硬件是速度为 200-1000+ FPS 的旗舰设备。这样一种模型可以应用在任何需要精确人脸区域的增强现实任务上,包括 2D/3D 面部关键点或几何预估、面部特征或表情识别,和面部区域分割等。
论文的贡献包括:一个受 MobileNetV1/V2 但和模型不同的轻量级的特征抽取网络,一个对 GPU 友好的模型方案,由 Single Shot MultiBox Detector (SSD) 方案改进而来,以及一个提升后的,用于替代非最大化压缩的联合分辨率策略。
推荐: 轻量化、快速且准确的人脸识别模型一直是研究的重点。谷歌的研究人员提出了一种只使用移动设备 GPU 就可以运行的模型,识别极为快速。有了这样的模型,下游相关的增强现实移动端应用可以进一步发展起来了。
4.标题:Multilingual Universal Sentence Encoder for Semantic Retrieval
-
作者:Yinfei Yang, Amin Ahmad
-
链接:https://ai.googleblog.com/2019/07/multilingual-universal-sentence-encoder.html
摘要: 研究人员提出了三种全新的通用句编码器(Universal Sentence Encoder)多语言模块,模块增加了一些额外的特性和,扩展了其应用的潜在可能。前两种模块提供了多语言模型,用于提取语义相似的文本。第一种模型的优化目标是提取性能,另一种则是更快的速度和更小的内存使用。第三种模型则专门用于 16 种语言的抽取型问答任务上,这是通用句编码器的一种全新应用。这三种多语言模块都使用多任务双重编码器框架训练,这和原本的英语通用句编码器是一样的。但是研究人员开发了一种技术,使用附加性边缘 softmax(additive margin softmax)提升双重编码器的性能。这种技术不仅可以保证迁移学习的良好表现,在语义提取任务中也表现良好。
推荐: 通用句编码器相比于词向量等可以更好的转换为句子级别的表征,在涉及句相似度的抽取任务中有着广泛的应用。谷歌博客提到的这篇论文将通用句编码器的方法扩展到了多种语言,并且扩展到了问答任务——一个之前通用句编码器研究中未涉及的领域。
5.标题:Benchmarking Model-Based Reinforcement Learning
-
作者:Tingwu Wang、Xuchan Bao、Ignasi Clavera、Jerrick Hoang、Yeming Wen 等
-
链接:https://arxiv.org/pdf/1907.02057v1.pdf
摘要: 人们普遍认为,基于模型的 强化学习 (MBRL)可能比无模型(model-free)RL 具有更强的样本效率。但是,基于模型的 RL 研究还不是那么的规范化。所以,研究者常常在自设计环境下进行实验,并且分为几个独立的研究方向,这些方向有时是闭源或者可复现的。因此,一个待解决的问题是,现有这些不同的 MBRL 算法相互之间如何执行任务。
为了促进 MBRL 方面的研究,研究者在本文中收集了一系列 MBRL 算法,并提出了特别为 MBRL 设计的 18 种基准测试环境。通过统一的问题设置(包括噪声环境),研究者对这些算法进行了基准测试。除编目性能(cataloguing performance)外,研究者探索并统一了不同 MBRL 算法之间的潜在算法区别。他们描述了未来 MBRL 研究的三项关键性挑战:动态瓶颈、规划时轴(planning horizon)困境和提前终止困境。
推荐: 基于模型的强化学习研究一直缺乏标准性的基准测试,对于复现模型或性能研究造成了阻碍。多伦多大学联合 UC 伯克利,对一些强化学习模型进行了基准测试,总体性的回顾了基于模型的强化学习方法,不失为入门学习多种强化学习模型,了解模型测试基准的重要参考资料。
6.标题:Playing Go without Game Tree Search Using Convolutional Neural Networks
-
作者:Jeffrey Barratt、Chuanbo Pan
-
链接:https://arxiv.org/pdf/1907.04658.pdf
摘要: 众所周知,围棋(Go)游戏在东亚国家具有很长的历史,但直到最近几年,计算机围棋(Computer Go)的表现效果才赶上人类玩家。围棋的规则虽然简单,但游戏的策略和组合却极其复杂。即使是在过去几年,依赖神经网络来评估盘面状态的新程序每秒钟依然可以探索到比职业玩家多很多量级的盘面状态。