专栏名称: AI科技评论

「AI科技评论」是国内顶尖人工智能媒体和产业服务平台，专注全球 AI 业界、学术和开发三大方向的深度报道。

今日 Paper | Social-STGCNN；说话人脸视频生成；食材图像合成；光场角度超分辨率等

AI科技评论 · 公众号 · AI · 2020-03-06 12:36

正文

Social-STGCNN：一种用于行人轨迹预测的社会时空图卷积神经网络

论文名称：Social-STGCNN: A Social Spatio-Temporal Graph Convolutional Neural Network for Human Trajectory Prediction

作者：Mohamed Abduallah /Qian Kun /Elhoseiny Mohamed /Claudel Christian

发表时间：2020/2/27

论文链接：https://arxiv.org/abs/2002.11927

推荐原因

这篇论文被CVPR 2020接收，考虑的是行人轨迹预测的问题。

行人轨迹不仅受行人本身影响，还与周围物体的相互作用有关。这篇论文提出了社会时空图卷积神经网络（Social Spatio-Temporal Graph Convolutional Neural Network，Social-STGCNN），将行人与周围物体的交互行为建模为图模型，并通过一个核函数将行人之间的社交互动嵌入邻接矩阵中。实验结果表明，与先前方法相比，Social-STGCNN的最终位移误差较现有技术提高了20％，参数减少了8.5倍，而推理速度提高了48倍。

音频驱动的带自然头部姿态的说话人脸视频生成

论文名称：Audio-driven Talking Face Video Generation with Natural Head Pose

作者：Ran Yi /Zipeng Ye /Juyong Zhang /Hujun Bao /Yong-Jin Liu

发表时间：2020/2/24

论文链接：https://arxiv.org/abs/2002.10137

推荐原因

现实世界中说话的人脸通常伴随着自然的头部运动，但大多数现有的说话人脸视频生成方法仅考虑具有固定头部姿势的人脸动画。

本文通过提出一个深度神经网络模型来解决此问题，该模型将源人的音频信号A和目标人的非常短的视频V作为输入，并输出合成的高质量说话人脸视频，其具有自然的头部姿势（利用V中的视觉信息），且表情和嘴唇同步（同时考虑A和V）。该项工作最大的挑战是自然的头部姿态包含平面内外的头部旋转，为了解决这个问题，作者重建出3D人脸动画并将其重新渲染为视频序列，为了平滑过渡这些视频的背景图使得结果更加逼真，作者提出了一个新颖的内存增强的GAN模块。

大量实验和用户调研表明，文章方法可以生成高质量（即自然的头部运动，表情和嘴唇的同步）个性化的说话人脸视频，表现优于 state-of-the-art 的方法。

用自适应实例归一化将学习从合成噪声转移到真实噪声去噪

论文名称：Transfer Learning from Synthetic to Real-Noise Denoising with Adaptive Instance Normalization

作者：Kim Yoonsik /Soh Jae Woong /Park Gu Yong /Cho Nam Ik

发表时间：2020/2/26

论文链接：https://arxiv.org/abs/2002.11244

推荐原因

这篇论文被CVPR接收，考虑的是真实噪声的去噪问题。

这篇论文提出了一个广义降噪结构和迁移学习方案来应对各种复杂的实际噪声。这个方案采用自适应实例规范化来构建一个降噪器，可以正规化特征地图，并且防止网络过度拟合训练集。这篇论文还提出了一个迁移学习方法，可以将从合成噪声数据中学习的知识迁移到真实噪声领域。合成噪声降噪器可以从各种合成噪声数据学习一般特征，而真实噪声降噪器可以从中学到真实数据的实时噪声特性。新提出的去噪方法具有很强的泛化能力，在合成噪声上训练的网络能够在Darmstadt Noise Dataset (DND)数据集上取得目前最好的性能结果。

CookGAN：食材图像合成

论文名称：CookGAN: Meal Image Synthesis from Ingredients

作者：Han Fangda /Guerrero Ricardo /Pavlovic Vladimir

发表时间：2020/2/25

论文链接：https://arxiv.org/abs/2002.11493

推荐原因

这篇论文发表于WACV 2020，通过食材列表合成逼真的食品图像。

以往利用生成对抗网络进行图像生成的工作主要集中在生成空间紧凑且定义明确的物品上，而食品图像则更加复杂，包含了多种食材成分，其外观和空间品质通过不同的烹饪方式会进一步变化。为了从配料中生成真实的食品图像，这篇论文提出了CookGAN，该模型首先建立一个基于注意力的配料-图像关联模型，然后将其用于调节生成合成食品图像的神经网络。此外，CookGAN添加了周期一致约束以进一步改善图像质量并控制外观。实验表明，CookGAN能生成与成分相对应的食品图像。

通过几何感知网络学习光场角度超分辨率

论文名称：Learning Light Field Angular Super-Resolution via a Geometry-Aware Network

作者：Jin Jing /Hou Junhui /Yuan Hui /Kwong Sam

发表时间：2020/2/26

论文链接：https://arxiv.org/abs/2002.11263

今日 Paper | Social-STGCNN；说话人脸视频生成；食材图像合成；光场角度超分辨率等

正文

目录

Social-STGCNN：一种用于行人轨迹预测的社会时空图卷积神经网络

音频驱动的带自然头部姿态的说话人脸视频生成

用自适应实例归一化将学习从合成噪声转移到真实噪声去噪

CookGAN：食材图像合成

通过几何感知网络学习光场角度超分辨率

请到「今天看啥」查看全文