专栏名称: NVIDIA企业开发者社区
NVIDIA 英伟达开发者社区是NVIDIA GPU开发者交流平台,通过此平台可第一时间获取NVIDIA GPU 开发相关的新产品、新工具、线上/线下活动的资讯。
目录
相关文章推荐
爱猫之和高Y家打官S版  ·  这应该是我做的最后一篇评测:送检10款猫粮的 ... ·  昨天  
法治时报  ·  别买!别养!别碰! ·  2 天前  
桂林广播电视台飞扬883  ·  女子被猫咬了一口,11天后突然伤口恶化,医生 ... ·  2 天前  
桂林广播电视台飞扬883  ·  女子被猫咬了一口,11天后突然伤口恶化,医生 ... ·  2 天前  
爱猫之和高Y家打官S版  ·  我被杭州某宠物公司以“不正当竞争”为由,起诉 ... ·  2 天前  
爱猫之和高Y家打官S版  ·  我被杭州某宠物公司以“不正当竞争”为由,起诉 ... ·  2 天前  
光明网  ·  海关截获世界最毒蛙! ·  3 天前  
51好读  ›  专栏  ›  NVIDIA企业开发者社区

在线研讨会 | CUDA 11 编程新特性介绍

NVIDIA企业开发者社区  · 公众号  ·  · 2021-01-18 10:30

正文

开发人员可以使用 CUDA 完成 GPU 程序的开发,优化和部署,而 CUDA 11 引入了诸多编程新方法和新 API,进一步提升了 GPU 的可编程能力,充分释放了新一代安培 GPU 架构的硬件性能。


本次报告中,我们会重点介绍 CUDA 11 在编程方面的新特性,包含以下几个方面:


(1)  CUDA kernel 中 warp 级别 reduction 的新实现方法。以往 warp 级别 reduction 需要多步 SHFL 操作,而现在被简化为一步操作,并得到 A100 的硬件加速。

(2)  L2 的缓存驻留。该技术可以把频繁访问的数据留在 L2 缓存,从而减少全局内存访问压力,提高程序的吞吐。我们会详细讨论设置 L2 访问策略窗口时需要考虑的问题。

(3)  CUDA kernel 中的异步数据拷贝。该技术可以将数据从全局内存到共享内存的拷贝时间与计算时间相重叠,并且优化了拷贝过程中对于寄存器和 L1 缓存的使用。A100 也为此实现了硬件加速。

(4)  CUDA kernel 中的异步 barrier。它将 barrier 拆分为到达(arrive)和等待(wait)两个操作。线程可以推迟等待,利用以往等待的时间完成一些与 barrier 无关的计算,从而减少等待时间。同时,该技术可以帮助实现不限于 warp 级别或 block 级别的更自由的线程粒度的同步。


总之,本次在线研讨会主要面向对CUDA新特性感兴趣的、有一定经验的GPU开发者。通过本次在线研讨会,您可以获得以下内容:


# A100 架构的新特性

# Warp 级别 reduction 的新实现方法

# L2 缓存驻留技术

# 全局内存到共享内存的异步数据拷贝

# 异步 barrier


--- 日程安排 ---

2021年1月20日(星期三)

8:00 PM - 9:00 PM

直播

9:00 PM - 9:30 PM

答疑









请到「今天看啥」查看全文