专栏名称: AI科技评论
「AI科技评论」是国内顶尖人工智能媒体和产业服务平台,专注全球 AI 业界、学术和开发三大方向的深度报道。
目录
相关文章推荐
爱可可-爱生活  ·  [LG]《All Roads Lead ... ·  昨天  
飞总聊IT  ·  一个邀请码卖10万,Manus这个炒AI的大 ... ·  2 天前  
飞总聊IT  ·  一个邀请码卖10万,Manus这个炒AI的大 ... ·  2 天前  
爱可可-爱生活  ·  晚安~ #晚安# -20250307222726 ·  2 天前  
宝玉xp  ·  回复@zzqq12:如果你们对 Manus ... ·  3 天前  
51好读  ›  专栏  ›  AI科技评论

今日 Paper | 重建结构和去噪GAN;循环视觉嵌入;随机优化方法;小冰乐队等

AI科技评论  · 公众号  · AI  · 2020-03-02 19:15

正文

目录

JRMOT:一个实时3D多对象跟踪器和一个新的大规模数据集

SD-GAN:重建被遮挡脸部部分的结构和去噪GAN

像词一样表达对象:用于图像-文本匹配的循环视觉嵌入

ADAM:一种随机优化方法

小冰乐队:流行音乐的旋律与编排生成框架

JRMOT:一个实时3D多对象跟踪器和一个新的大规模数据集

论文名称:JRMOT: A Real-Time 3D Multi-Object Tracker and a New Large-Scale Dataset

作者:Shenoi Abhijeet /Patel Mihir /Gwak JunYoung /Goebel Patrick /Sadeghian Amir /Rezatofighi Hamid /Martin-Martin Roberto /Savarese Silvio

发表时间:2020/2/19

论文链接:https://arxiv.org/abs/2002.08397

推荐原因

这篇论文考虑的是自主导航的问题。自主导航代理需要感知并跟踪周围物体和其他代理的运动,以实现健壮和安全的运动计划和动作执行。尽管自主导航需要多对象跟踪系统来提供3D信息,但是大多数已有研究都是通过RGB视频在2D多对象跟踪中完成的。这篇论文提出了一个新的3D多对象跟踪系统JRMOT,它将来自2D RGB图像和3D点云的信息集成到实时执行框架中。这篇论文还将JRMOT合并到多模式递归卡尔曼架构中的联合概率数据关联框架中,以实现在线实时3D多对象跟踪。这篇论文同时还发布了一个新的大规模2D与3D数据集,在超过54个室内和室外场景中标注了超过200万个边框和3500种时间一致的2D+3D轨迹。

SD-GAN:重建被遮挡脸部部分的结构和去噪GAN

论文名称:SD-GAN: Structural and Denoising GAN reveals facial parts under occlusion

作者:Banerjee Samik /Das Sukhendu

发表时间:2020/2/19

论文链接:https://arxiv.org/abs/2002.08448

推荐原因

这篇论文考虑的是脸部重建的问题。

在人脸识别中,如果显著的面部特征被遮挡了,模型的识别能力会大大下降。为此这篇论文提出了一个名为SD-GAN的生成模型来重建被遮挡脸部部分,并保留原始图像中的光照变化以及脸部身份信息。这篇论文还提出了一种新的对抗“结构性”损失函数,该函数包括两个部分:整体损失和局部损失,分别由SSIM和逐块MSE进行构建。在真实和合成的遮挡人脸数据集的实验表明,即使是在提高人脸识别性能方面,这篇论文提出的技术也比其他基准模型具有更大的优势。

像词一样表达对象:用于图像-文本匹配的循环视觉嵌入

论文名称:Expressing Objects just like Words: Recurrent Visual Embedding for Image-Text Matching

作者:Chen Tianlang /Luo Jiebo

发表时间:2020/2/20

论文链接:https://arxiv.org/abs/2002.08510

推荐原因

这篇论文考虑的是图像-文本匹配问题。

图像-文本匹配方法通常通过捕获和聚集文本与图像的每个独立对象之间的亲和度来推断图像-文本对的相似性,但是这类方法忽略了语义相关对象之间的连接。这篇论文提出了一个名为DP-RNN的双路径循环神经网络,给定一个输入的图像-文本对,根据图像对象在文本中最相关的词的位置对图像对象进行重排序。与从单词嵌入中提取隐藏特征相同,新模型利用RNN从重新排序的对象输入中提取高级对象特征。为计算图像-文本相似度,这篇论文将多注意交叉匹配模型合并到DP-RNN中,通过跨模态引导的注意和自注意机制聚集了对象和单词之间的亲和力。Flickr30K和MS-COCO数据集上的实验证明了DP-RNN的有效性。

ADAM:一种随机优化方法

论文名称:ADAM: A METHOD FOR STOCHASTIC OPTIMIZATION

作者:Diederik P. Kingma /Jimmy Lei Ba

发表时间:2017/1/30

论文链接:https://arxiv.org/pdf/1412.6980.pdf

推荐原因

核心问题:神经网络的优化是一个重要的课题,比如梯度下降算法,动量梯度下降算法,本文介绍一种新优化算法。

创新点:Adam 是一种可以替代传统随机梯度下降(SGD)过程的一阶优化算法,它能基于训练数据迭代地更新神经网络权重,该方法实现简单,计算效率高,对内存的要求很小,使得神经网络训练很快。

研究意义:Adam比其他随机优化方法要好很多。

小冰乐队:流行音乐的旋律与编排生成框架

论文名称:XiaoIce Band: A Melody and Arrangement Generation Framework for Pop Music

作者:Hongyuan Zhu / Qi Liu /Nicholas Jing Yuan /Chuan Qin /Jiawei Li

发表时间:2018/8/19

论文链接:http://staff.ustc.edu.cn/~qiliuql/files/Publications/Hongyuan-Zhu-KDD2018.pdf

推荐原因

核心问题:这篇文章简单的看了看,虽然和自己的研究领域不同,但是看着挺有意思的。他们做了一个小冰乐队,一个用于歌曲生成的端到端旋律和编曲生成框架。







请到「今天看啥」查看全文