黄鑫,宗仁联合编辑。
NVIDIA今天在GTC China2016上发布了新的产品:专为深度学习设计的推理加速器Tesla P4和Tesla P40,以及专为自动驾驶和汽车人工智能开发的低功耗计算机Drive PX2 for autocruise。
NVIDIA的传统强项是桌面和移动PC GPU,不过坚定的向着AI大踏步迈进的它显然已经不满足于一味的在单一领域做提高GPU性能的事了。我们曾经提到过,AI的研发和应用分为好几个阶段,NVIDIA传统的计算密集型GPU产品只会对训练算法这一项起到显著的改善作用,但NVIDIA显然是不会甘心只拿下这一领域的,而是希望将整个开发流程都包括进去。P4和P40同之前放置于超级计算机DGX-1内的P100定位类似,但功能侧重点有所不同。P100专注于加速神经网络的训练速度。而P4和P40专注于提高CPU的推理,也就是逻辑运算效率。一下是3款新品的侧重点盘点:
| P4 VS P40 VS Drive PX2 Autocruise
一. P4专注于提高CPU的推理,也就是逻辑运算效率。
单精度浮点为5.5 TeraFLOPS
INT8指标为22 TOPS
内置8GB GDDR5显存
2560 CUDA核心
支持192 GBPs带宽。
集成72 亿个晶体管
NVIDIA称P4性能是去年发布的M4的四倍
主要负责图像、文字和语音识别
二. P40专注于提高CPU的推理,也就是逻辑运算效率。可将CPU推理加速40倍。
单精度浮点为12 TeraFLOPS
INT8指标(衡量深度学习)为47 TOPS
内置24GB GDDR5显存
3840 CUDA核心
346 GBps带宽
集成120 亿个晶体管
NVIDIA称P40性能是去年发布的M40的四倍
主要负责图像、文字和语音识别
三. PX 2 AUTOCRUISE计算平台适用于自动巡航功能(包括高速公路自动驾驶和高清制图)
| 着重提一下Drive PX2 Autocruise
不过,这些都还算是NVIDIA的传统强项。其各项数据指标除了比前代产品m4/m40更快更高更强一点也没有太多值得说的地方。令人感兴趣的反而是这块看起来弱弱的Drive PX2 Autocruise。
首先一个非常亮眼的数据是它的功耗只有10w,这或许是因为它使用的是NVIDIA为移动平台开发的Tegra系列处理器,不过不管怎样这个功耗可以说是十分亮眼的,因为同等级的FPGA产品的功耗水平也基本就是在这个程度,甚至还会更高一些。并且它的功能定位聚焦于高速公路上的自动巡航,而并不是整个自动驾驶领域。这也很好理解,单移动处理器的架构和极低的功耗必然无法支撑起超大规模的计算。不过NVIDIA的意思也不在于此。
NVIDIA表示,这款产品可以同NVIDIA的DGX-1相配合。在NVIDIA描述出的图景中,数据科学家可以在数据中心利用NVDIA DGX-1训练深度神经网络,然后把训练好的神经网络在车辆配备的NVIDIA DRIVE PX2上运行。NVIDIA为DGX-1和Drive PX2 for autocruise开发了完全相同的NVIDIA DRIVEWorks算法、库、工具。让研究者可以方便的进行通用开发。
也就是说,这台计算机(Drive PX2 for autocruise)一开始就不是设计用来开发的,而是一台应用层面的设备。也就是说,NVIDIA用产品囊括完整AI开发流程的行动又开始了一个新的阶段。
| 小结
今天会上,黄仁勋着重表示——P4专为加速1U OCP服务器而设计,功率仅为50W;P40专为最大吞吐量而设计,能将CPU推理加速40倍。连同在今年美国GTC上将发布的超大规模数据中心加速器Tesla p100与P4/P40将在深度学习的训练和推理两端,为数据中心带来端到端的深度学习平台。
至此,NVIDIA在人工智能领域已经形成了以Tesla P100和DGX-1为核心的训练系统;以P4/P40和Tensor-RT为核心的数据中心推理系统;以及以DRIVE PX 2与Driveworks为核心的智能驾驶体系。通过全面布局构建了端到端的深度学习平台。
在这场发布会上,Drive PX2 autocruise的战略地位可能甚至会高于P4和P40。虽然它是一块自动驾驶芯片,不过NVIDIA的真正意图应该还是跳出作为传统强项的AI研发领域,通过这款产品为自己在AI应用层面的进一步发展做准备和试验。
NVIDIA明显已经铁了心要成为AI的领导者之一,要达到这个目的,类似Drive PX2 for autocruise这样的针对特定场景设计的计算机是必不可少的。这款产品也可以看作是NVIDIA的一个试水之作,如果其获得了足够的成功,我们可能很快就能在其他一些物联网产品上也看到NVIDIA的身影了。