农历春节就要来了,高校的小伙伴们是不是都已经开启了放飞自我的寒假生活。在依然需要落实疫情防控要求的 2021 年春节,是不是宅在家中有些许无聊呢?
NVIDIA 开发者社区特此给同学们奉上假期学习修炼包,用丰富的人工智能、高性能计算开发知识丰富自己的假期吧!
给同学们准备的学习包一共包含 16 份视频演讲,前面文章里已经介绍了8份视频,在本篇中继续介绍剩余8篇。
—演讲人—
宋庆春
NVIDIA 网络事业部市场开发高级总监
RDMA 技术已经成为提高网络性能和数据中心扩展性的必不可少的技术,RDMA 技术可以实现 CPU 和操作系统 Kernel 的 Bypass,直接在 CPU 或 GPU 的 memory 之间建立通信通路,实现通信的高带宽、低延迟,并提升了系统的可扩展性。在现代 GPU 的应用当中,RDMA 成为提升性能的关键,从 Ring 通信、 Tree 通信,再到现在热门的 SHARP 通信以及 GPU 和存储之间的 GDS 通信,都依赖于 RDMA 来提供性能保障。在本报告中,将会介绍 RDMA 的工作原理和编程接口,为广大的 RDMA 爱好者能充分利用 RDMA 优化 AI 平台的性能提供建议。
观看地址:
https://nvidia.gtcevent.cn/forum/watch?session_id=CNS20819
您将得到关于如何在多机多卡 GPU 机群系统上搭建和优化高性能图嵌入系统的经验和知识。本演讲首先将介绍大规模图嵌入在不同领域的应用和重要性,接着说明在 GPU 机群上实现高性能图嵌入系统的关键点和我们的图嵌入系统中的关键模块,包括图和特征的分布式层级存储以及如何设计和实现并行的训练管线以最大化通信和计算效率。最后我们会展示我们的图嵌入系统的性能以及简要介绍我们的图嵌入系统的应用场景和未来计划。
观看地址:
https://nvidia.gtcevent.cn/forum/watch?session_id=CNS20857
或识别二维码观看
—演讲人—
张静蓉
NVIDIA G
P
U计算专家
Top-K 计算的目标是从候选数据中选取最大或最小的 K 个数据。作为一种通用的基础计算,Top-K 广泛应用在推荐系统、检索系统的召回模块中。当候选数据较多时,使用 GPU 可以显著地加速 Top-K 计算。我们对比了当前主流的 Top-K 算法和 GPU 实现,并对这些算法进行了优化,大大提升了 GPU 实现的性能。
观看地址:
https://nvidia.gtcevent.cn/forum/watch?session_id=CNS20315
或识别二维码观看
CUDA Graph 在 TensorFlow 中的应用
介绍如何在 TensorFlow 中,利用 CUDA Graph,降低 Kernel Launch Overhead,提高 GPU 利用率,改善系统性能。在使用 TensorFlow 的过程中,通常会遇到这样的情形 – 模型中存在较多计算量小的操作(op),由于每个操作在执行过程中,会发生一或多次 Kernel Launch,导致 Launch Kernel 的 Overhead 变得非常显著,降低 GPU 利用率。TF 在默认配置下,GPU 上的计算调度和 CPU 上的计算调度使用同一个线程池,导致同时存在相当数量的线程在进行 Kernel Launch,进一步加剧了 Launch Overhead 。针对这个问题,我们提出了使用 CUDA Graph 来降低 TF 中 Kernel Launch Overhead 的方法 – 将 Session Run 过程中的 Kernel Launch 合并成一次 CUDA Graph Launch,经过测试验证,该方法可以显著提高 TF 在 Inference 过程中 GPU 利用率,相比于图优化策略,该方法适用更多的计算图模式,同时也可以和图优化方法同时使用,进一步提升性能。
观看地址:
https://nvidia.gtcevent.cn/forum/watch?session_id=CNS20732
在本演讲中,会分享 LightSeq 团队在过去一年多时间里,围绕 NVIDIA GPU 硬件,针对自然语言处理领域的序列(sequence)模型,进行的推理优化工作。自 2017 年 Google 提出 Transformer 模型,以其为基础的特征提取方法,推动了众多自然语言处理任务能力水平的提升,与此同时,模型的参数量和推理延迟也呈现近乎指数增长。为了满足业务场景严苛的部署要求,LightSeq 团队结合 GPU 的硬件特性:1. 对特征运算进行了定制优化 2. 对自回归解码进行了层次化改写 3. 引入编译优化进一步提升计算吞吐。成为业界第一款完整支持 Transformer 、 GPT 等多种模型高速推理的开源引擎。模型层面,LightSeq 团队也探索了压缩、量化及蒸馏技术,性能达到业界 SOTA 。LightSeq 可以应用于机器翻译、自动问答、智能写作、对话回复生成等众多场景,大大提高线上模型推理速度,改善用户的使用体验,降低企业的运营服务成本。
观看地址:
https://nvidia.gtcevent.cn/forum/watch?session_id=CNS20158
3D 游戏中的角色动画,主流做法是:a)动作捕捉获得骨骼动画;b)将角色模型绑定到骨骼用以驱动角色模型的运动;c)将动画切成片段,在游戏中通过有限状态机来驱动动作的转换。这些环节都需耗费大量人力,而且多数不关乎创意和美学,只是重复劳动。具体地,动作捕捉因为肢体遮挡、环境光干扰等问题造成多种类型的数据缺失和错误,需要通过工具或手工逐帧修复;服装蒙皮,一套中等复杂程度的服装可能需要耗费 7 人天;动画切片、构建循环动作、动画状态机维护也是一项长期的工作。我们采用数据驱动的思路,试图将动画制作过程中一些工作完全自动化。在动作捕捉中,深度学习模型从动捕工程师加工过的数据中,学会如何识别错误的数据、重新生成正确的数据,最终可减少 90% 的人工数据清洗时间,大大提高了动捕的效率;在服装蒙皮中,机器学习模型可以达到甚至超过人工蒙皮的水准。我们也探索了如何用监督学习来生成运动学动画,并尝试了如何用强化学习和物理模拟来合成与环境或动作目标相匹配的动画。以上工作,NVIDIA GPU 在两个方面发挥了重要作用,一是深度学习的模型训练,二是几何处理的关键算法如测地距离计算、 mesh 分割等。
观看地址:
https://nvidia.gtcevent.cn/forum/watch?session_id=CNS20621