为期 13 周的北大 AI 公开课转眼来到了最后一讲,如课程的组织者和主讲人、北大人工智能创新中心主任雷鸣老师所说,“十三讲的内容给大家带来了一个比较完整的 AI+ 产业的体验”。
在最后一讲上,英伟达自动驾驶业务中国区负责人董方亮亲临现场,与雷鸣老师一道,就 GPU 的演进历程、 GPU 和深度学习的关系、AI 技术在各产业的应用等问题展开了深入的讨论和交流。
GPU 与 Deep Learning 紧紧地被绑在一起
雷鸣:我们很高兴邀请到董方亮先生为我们介绍一下
GPU 的发展,以及从深度学习角度,或者从GPU 角度来看整个 AI 产业的发展。董方亮在英伟达已经工作很多年了,目前负责AI
和自动驾驶方面的工作,并且在 GPU
的研发、设计上也有多年的经验,我们今天非常高兴地把他请过来跟大家分享一下现在最火的话题——GPU,那么下面有请大家以热烈的掌声,欢迎董老师给我们讲讲,谢谢!
董方亮:首先很感谢北大,很感谢雷老师组织了这么好的机会,能让我能站在这里给大家分享和交流一下英伟达在
GPU 和 deep learning 方面的一些积累和工作。今天很荣幸能站在这里。今天的交流大概分成四个部分:1)对 GPU
进行一个简单介绍;2)将 GPU与 deep learning 相联系;3)探讨当今时代的 AI,以及今后的AI会朝什么方向发展;4)分享英伟达
GTC 2017年的大会和大会之后我自己的收获。
今天在场很多人都打过游戏吧,基本上打游戏的人都知道 GPU,因为英伟达最早是做视觉计算的公司,我们公司的创始人最早就要去做一个不同于CPU 的产品,创造一个gaming的市场。
我下面再说一个话题,可能大家不一定知道,那就是北大对 GPU 的贡献。其实在座的各位北大的天之骄子应该感到很自豪,因为GPU
的发展有一个很重要的技术叫 Pixel Shader(像素着色器),像素着色器是决定了今天能够做gaming、video
等很多呈现在大家面前功能的技术之一。核心的发明人是北大本科 87 级或 88级物理系的一位同学,所以北大人应该非常骄傲。北大对 GPU
的技术发展起到了很关键的作用。我相信很多同学可能不知道!
我们现在开始做一个 gpu 的介绍。
介绍
GPU 的时候我顺便也讲一下英伟达,英伟达是一家以 GPU技术为核心的公司,从成立那天起就做 GPU,到今天也在做
GPU。我们公司从一个视觉计算的公司转变到今天 AI
计算的公司,这一转变当然有时代的原因:1)现在产生大量数据,其中有很多的语音、图像数据;2)在人工智能方面,我们的一些基础研究有了长足的发展,同时在基于DNN(深度神经网络)架构上也有不错的发展,与现在
CPU 的计算模式不同。为什么 GPU非常合适于今天的AI的计算,也就是 deep learning?
这一页展示的是
GPU 计算年谱,我们也看到英伟达在 06年的时候做了一个CUDA(computing unifieddevice
architecture),核心意思是,GPU
是一个多核的计算体。我们如果能用一套架构把计算核完整、方便地调动起来,就形成了并行计算的基础。CUDA 包含了从底层到应用层完整的
SDK,公司之前就已经做了并行计算的充分准备。从 06年到现在,英伟达每一代产品,都原生地支持
CUDA。年谱中有另一个重要的时间点——2012年,当时 AlexNet 用 GPU 做了一个9 层的 DNN
架构来做图像识别,取得了很好的效果。2012年可以认为是 GPU 应用于 deep learning 的爆发元年。随着时间的发展,DNN
不断演进。在各类 framework 不断演进的今天,GPU 与 deep learning紧紧地被绑在了一起。
如今,摩尔定律是否能够适应如今崭新的计算架构?摩尔定律是以蓝线表示,有一个难以突破的平台期。主要难点之一在于,线程做的比较小会有很大的挑战。但是deep learning 还在不断发展,因此需要全新的架构支持,并且需要沿着比摩尔定律更高的计算量趋势发展,才能匹配全新的计算模式,才能在 AI 时代体现良好的计算能力。
我们预计到 2025年,GPU 有很大的需求量。GPU 时代兴起的原因在于,GPU 提供了与之前 general purpose computing 不同的模式。我们可以看到,在屏幕左边,底层是CUDA,上面是系统,算法和应用。GPU 在支撑全新架构的前提下,能够支撑现有的计算力。
我们可以对
CPU 与 GPU 做一个简单的比较。GPU 与 CPU
的特点不同,GPU是一个简单的多核处理器,再结合CUDA之后,很有利于做并行运算。这是GPU的简单架构,当然也有很多有特色的东西,包括多个streaming
multiprocessor,即流的多处理器,上面会包int F16,F32,F64的处理核。因此,GPU很适合做并行运算。
Deep
learning 是并行运算很好的应用场景。这是一个简单的神经网络。可以与大家简单分享一下我们为何这么设计 deep learning
的网络。最早,是对于人脑假说性的理论模拟。70
年代,两位德国的生物学家解剖猫的大脑时,认为神经元是一层一层的,神经元之间有反射弧,他们假说当电流通过神经元之间的反射弧时,是一个激活的状态。他们提出了一套理论。之后,在DNN
架构出来之后,用 DNN 做具有特征的数据识别,有良好的效果。前层的 layer 是后层的浅层表现,因此带有 pattern
的语音、图像数据能够分类。在深度神经网络中,每一个节点都可以被模拟成计算核。GPU承担了每一个深度神经网络节点的计算,这也是 GPU 符合
DNN架构的原因。因此,GPU是线下训练的唯一选择。
Deep learning 其实包括两部分,第一部分是线下的训练,在云端或者加载GPU 的服务器端做训练;另一部分是做线上的推理。在线下训练,之后将训练好的模型放到线上去做推理,这是目前 deep learning 较为普适的模式。
Deep
learning 的模式较为适合三类数据,computer vision 数据,语音数据,自然语言处理数据。这张PPT展现从 GPU 到
SDK 到 framework 到上层的应用。GPU带来的 deep learning 创造了全新的计算时代,也给初创公司带来很多机会。
AI的机会很多,在单一技术和组合式产品中,都有良好的市场。
我们可以从初创公司中看
deep learning 中有哪些机会:1)健康医疗,比如皮肤癌的研究在用 deep learning
做;2)零售,主要解决商品选择和支付问题。Focal
公司解决如何让传统零售业爆发活力的方案,核心技术是对物体的识别。客户进入实体店后,有类似于pad
的装置,用手推车进行购物,当挑选完商品后,不用结账,自动识别。同时,当商品从货架取下后,系统会自动补货。这个公司主要面向零售业的细分市场;3)金融。美国有一家投资公司,用了无人机和卫星图片,天天在美国上空扫庄稼地,利用
DNN
网络做图片识别,看看某几类庄稼的长势如何,并在期货交易所做对冲。可以通过历史数据比对,看是欠收还是多收;4)安全;5)IoT,比如机器人、无人机公司。目前有陪伴机器人,服务机器人,用无人机撒农药,这些都是针对特殊场景的很好的应用;6)无人驾驶,代表了
deep learning 技术与未来交通行业的结合;7)网络安全。有些公司用 deep learning
做对于病毒、恶意模式的判断,这些方案能够实时升级,判断新来的病毒属于哪一类。因此,AI的机会很多,在单一技术和组合式产品中,都有良好的市场。
与大家分享一下一些
AI
的典型应用。第一个应用是在车里用语音与车进行交互;第二个应用是基于图像的物体识别,能够在图片库中找到心仪的物品。在数据库领域,这种基于图片的应用也很有意思。比如
SAP 在训练
DNN中,将广告中公司的图标抓取出来,并给客户一个报告,在这段视频中,图标出现多少次,出现在什么位置,并判断投资和品牌曝光度是否合理。这一特性,给SAP带来很好的客户反馈;第三个应用是基于用户行为作出判断,比如喜欢什么类型的电影。
我们与祖母可能交流困难,如何应用 NLP 技术与她进行交流,增强人与人之间的沟通;第二张图片与医疗相关;第三张图片中是微软的工程师,是一个天生的盲人,微软现在有一种眼镜能够进行物体识别,这也是基于deep learning很好的应用。
第一张图是我们在平安城市中抓取特征点;第二张图是服务型机器人;第三张图是在农业方面的应用。因此,在 AI月 deep learning 的时代,有很多领域大家可以尝试去做。
这张图想与大家分享一下英伟达在自动驾驶领域的应用。我们将自动驾驶变为AI
的任务,模拟人进行驾驶。当人驾驶时,人需要知道周围环境,车的位置,并作出相应的驾驶策略,这也是AI的任务。1)感知:我们会用多样的传感器将周围环境情况了解清楚;2)reasoning:判断周围环境是否安全;3)驾驶:依托于高精度地图,高精度地图能够提供丰富的环境信息和精确的定位。
这是一个总结,可以看到人工智能时代在架构、软硬件、算法等方面不断向前发展。
下面我会跟大家分享一下,在 GTC 2017 中一些比较好的收获。
第一个就是,英伟达在
GTC上宣布了新一代的 GPU,VOLTA100。我们每一代的GPU有一个科学家的名字,这一代的GPU 对我们来说,有几方面的提高,第一是它有
210 亿个晶体管,12纳米线程,然后整个核心板的面积在815毫米平方,这是一个非常大的进步,整个架构上有一个非常大的进步。
这一代,我们的架构有一个很好的一个提升,我们会在这一代架构里面放入一个Tensor
核,它完成了以前矩阵式同步这种的矩阵式相乘,实现非常高速的运转。这样的结果会让我们产生120Teraflops 的计算能力,这种计算能力无论针对
Training 端还是 Inference 端都是非常好的进步。这一代产品是英伟达最新在 GTC上发布的。
这一页是跟大家讲一个蛮有意思的产品,其实机器人或者说我们叫智能体的这种产品已经出了挺长时间,但是机器人这种产品有一个问题,就是说机器人这种场景,你真正去训练它的时候,其实是挺困难的,包括有各种场景你要去模拟,这是比较大的困难,因为第一个是时间长,第二个你不会去造很多机器人一块去学一些东西,这样的话,你这个研发包括这种开发的周期会很长。
这是我们叫 ISAAC 的
SIMULATOR,其实是把深度学习和模拟结合在一起,它其实是用一个模拟的平台去训练机器人,比如说我训练一个机器人做一个动作,做什么动作呢?我做一个比如说打高尔夫球的动作,那他就去做模拟,他一遍一遍的做,这样的话,如果一个机器人的公司,它以使用这样的模拟器。它去做这种模拟的时候,可以同步去做多个,或者是把一种机器人同步做多个机器人的模拟,然后做多个场景的模拟,甚至是一个场景多个机器人去模拟,这样去做。这样的话,会极大的提升模拟和开发的效率。
这一页是我们这一次的颁奖。我们的评委有的来自高盛,有的来自微软,这些评委都是来自于这些公司。那么我们发现很有意思,这里面有六家公司(获奖),有三家第一。这三家都是做医疗和健康相关的。有一家是做针对心脏病的快速检测,它这个好处在哪呢?就是说我个人如果心脏很不舒服的时候,真正送到急诊或者医院时,很难很快就定它这个心脏有什么样的问题,但是里面有一家的技术就能让它做一个相对来说比较简单的检测,它通过这个检测后,它的后台会用
Deep learing,这样它的检测会去看心脏大部分概率是哪一种病,第一准确度高,第二很快速,所以这对这种病人的快速诊断起到了很大的作用。
还有一家公司是在做针对皮肤癌的检测,另外一个公司在做什么呢?另外一个公司在做针对血液的检测,它这个血液检测主要是看白细胞,通过血液里面的白细胞来看免疫力,这三家无一例外都在用
Deep
learing去做他们核心技术的这种检测,第四家公司是做计算机安全的公司,它也是利用现在网上的样本,比如说它会把现在网上攻击的样本,包括病毒的样本在他们的
DNN
里面去做训练,去看到底是哪一类型的病毒,或者说是攻击。底下这一家公司做了一个大家都没有做的市场,它要做建筑工地的市场,他们发现建筑工地有一个问题是,建筑工地里面的一些技术人员拍建筑工业外形照的时候,手机也拍了,拿相机也拍了,但很难把这些照片很快的进行分类,这些建筑工地一个是条件差,也没有很好的办公条件,所以很难分类,很难分类的问题是在于带来工作上这种工作效率降低,这是第一个。
第二个是信息上传不及时。这家公司拿了一个类似于 Pad 的设备上工地,拍了需要检测的照片以后自动做分类、上传。它提供了这样一套智能解决方案。
关于 Focal,刚才跟大家讲过,就是针对传统商店的解决方案。
这是一段录像,这段录像其实是想跟大家分享一下在自动驾驶方面的一些应用,把这个放在这里分享就想跟大家说一下,其实自动驾驶和 AI 是强相关的,这里面无论从技术还是商业还是前景上都是非常好的,大家可以看一下。
这段视频是简单讲了一下自动驾驶中我们的一个路测,看起来好像很简单,从一个地方起步然后转弯,从普通高速上来再下高速,这里面用到的 AI
技术是非常多的,最简单的就像在路上跑的时候,物体的识别,包括车道线检测,包括移动物体的检测,包括自动驾驶的策略,怎么样做驾驶的策略等等,其实这里面包括了很多
AI 相关的技术,所以我们可以看到自动驾驶其实是一个跟 AI 强相关的行业,这也是一个非常具备挑战的行业,当然也很有意思。
这里有一个我一直很想跟大家分享的视频。
视频地址:https://www.bloomberg.com/features/2016-hello-world-new-zealand/
刚才有一个同学提了很好的问题,问
AI 和 VR 会不会有一种结合的过程。其实我们想说,AI 和 VR 有一种非常强的结合,也就是在 VR
里面模拟一个人,我们把这个人定义成一个智慧体,这个跟机器人是完全不同的场景,为什么这么说呢?因为这个机器人如果是智慧体的话,比如说这个地方有一个机器人,那就只是一个机器人,它长什么样就是什么样。如果在虚拟世界里面,它跟
AI
技术结合以后,这个人它可以自己成长,它可以学东西,它其实是一个智慧体,这个应用最早来自于哪里呢?这个应用最早来自于电影里面的需求,电影里面我们会说我设一个人物,这个人物本身就能跟你交互学习,是一个类人体,但是它是用计算机模拟出来的,电影行业最开始有这个需求,这个需求有一个拓展。比如说我可以在计算机中模拟一个孩子,而这个天真无害的小孩,他会随着年龄的增长,会变老,他是一个智慧体,智慧体说明什么呢?你可以跟他进行互动,你教他英语他会英语,你教他爸爸妈妈他会爸爸妈妈,这样一个智慧体的商业价值我不知道,但是我觉得他对人类带来的价值很大,比如说有些人,比如说有些家庭,孩子没有了或者找不到了,或者父母很长时间没有见小孩非常想小孩,我怎么办呢?通过这种技术,因为小孩他会去学,你从视觉上的感觉,他就跟真人一模一样非常的感动。
这段视频其实就是虚拟现实和 AI
相结合的一个案例,这最早是奥尔兰大学一个工作组在研究的一个很不错研究的主题,主要是通过这种模拟的技术,首先是在虚拟屏幕上构建一个智慧体,然后这个智慧体后面其实是用深度神经网络去训练智慧体,这样这个孩子会理解你的话,他会去学英语,我第一次看到这个在网上看到这个视频,感到非常震憾,我今天想分享给大家。
其实从这段视频分享中,我们可以看一下,它其实有几个方面的工作在做。首先,在模拟方面,包括对细节的处理,肯定是做的非常好,这是一方面的工作。
还有一方面大家可以看一下,还是细节,他跟你有互动,他的眼睛会追着你的眼睛走,人真正在跟他做交互的时候,你会为他感动,他会跟你有眼部的交流,他会听懂你的语言,也就是说完美的情况下,前方有一个模拟
VR 技术,通过 VR
我感觉非常酷,呈现了一个孩子,或者哪怕是一只宠物也可以,哪怕跟你有眼睛的交流,你会跟他互动,你教他英语他会英语,你问他什么,他说这是
apple,这是对你的一个反应,从产业上看,从现在的商业价值看,不是很清楚,但是从人类情感的需要上来说,这是一个技术对社会的责任,也是一种反馈,我觉得这个非常好,所以作为最后的视频分享给大家。
雷鸣:我看着蛮酷的,我感觉到有几个点,第一它确实会非常实用,因为我们都知道老龄化年代来临,老人最需要的是陪伴和精神寄托,所以你们都知道,或许你们年龄太小了,有孩子以后最高兴的不是父母,是爷爷奶奶姥姥姥爷,他们很高兴,跟孩子玩的很开心,这是一个很厉害的需求。
另外第二点,我们看到因为最近我和各个产业都有交流,有一个产业对这个东西需求是很大的,其实我们叫娱乐业,比如说游戏,比如说电影电视不需要雇演员了,你给自己拍一个照片你就成主角了,在里面该干嘛干嘛感觉很酷。
第二,还有一个反馈。我们讲到强人工智能,如果真的你教他什么他能学什么,这就转向强人工智能了,也一可能或许是另外一个领域的东西,不用强人工智能,只要我们将它变成一个智力水平在四五岁左右的孩子,在陪伴上就已经非常的有效了。所以我觉得里面还是有蛮多令人期待的地方,如果真能做出来我觉得太酷了。
Deep learing 带来的整体框架式运算模式需要更多 GPU
雷鸣:好,非常感谢董方亮先生,给我们讲的很精彩,讲了 GPU 的一些发展,讲了一下在 AI 上的各种创业,我觉得听了感觉有很多方向还是挺令人激动的,首先我们以热烈的掌声感谢一下。
英伟达应该说在全球做 GPU 是老大了,我们就探讨几个问题,一个问题就是未来发展的路径上,现在我们看到以前其实运算的整个核心我们说是
GPU,像英特尔、AMD 他们 CPU 做的很好,以前 GPU 是一个专用的显卡设备,今天我们越来越看到, GPU
发展的非常快,CPU一定程度上有所停滞,我们看未来的计算,会不会有一种 CPU 转到辅助位置的可能性?也就是说 GPU 和 CPU
未来是怎么一个发展和演进?互相协作还是 GPU 在未来越来越重要,甚至说重要程度超过 CPU?
董方亮:首先谢谢雷老师的这个问题,这个问题一直是工业界讨论的问题,GPU 和 CPU 天天相争,为什么会发生这样的情况?
首先我觉得今天 GPU计算的兴起,重要的还是来自于计算模式的改变,也就是说从传统的以前的我们叫 general purpose 的
computing 的模式,变到现在整个的运算模式的改变,也就是说 Deep learing
带来的整体的框架式运算模式需要更多的GPU,需要更多的线下训练到线上的过程,所以我觉得这是一个行业发展选择的过程。
雷鸣:另外我们也想了解一下,GPU 的通用计算能力很强,但也看到一些它的缺点,比如说它的功耗、它的所谓的成本等问题,最近我们其实也看到像
GPU、FPGA、Asic 等都在齐头并进的往前走,之前我们跟一些嘉宾也聊起过这几个东西,包括它们未来的演进。但是我想从英伟达做通用的 GPU
计算来讲,你看到了这两条路上未来大概是和 GPU 怎么演进的?它们之间会是怎么样一个发展方式?比如说 GPU
通吃还是三个协调发展?各解决一些什么问题?
董方亮:这个问题我简单谈一下我个人的理解,因为我们觉得现在是一个 AI 的时代,这个 AI 时代的特征就是对计算的需求会比之前高很多,那么计算需求比之前高很多呢,要通过几个方面去解决。
第一个是要提高计算能力。
第二个就是说慢慢的我们认为 General Purpose 的 computing 会被专业领域的计算机所取代。同时我们认为 AI
这个产业,如果用化去看,现在 AI 产业可能是100,过了 5 年以后它可能变成 1000 甚至 1
万的市场,我相信这样的市场,每一种处理器不管是 GPU 还是 FPGA 或是 Asic
,可能都会占据不同的市场的份额,或者是占据不同的这种层面,我觉得这可能是以后的一个发展趋势。
因为这个市场,我个人觉得有非常好的发展前景,这样这个市场会做的很大,这样大家都会找到这个市场里非常好的位置。
雷鸣:另外刚才您也讲到了,就是说所谓的通用计算,还有现在各个领域也在做计算,我知道
NVIDIA 除了通用的 GPU ,还有其他的。你说运算行业之外,将来的发展是 GPU 在通用计算里面起到最主要的作用,还是以
GPU的运算方式为一种主题的,包括在自动驾驶、医疗所谓的这种生命科学,比如说基因技术都会 Deep learing 出一种特殊的 GPU
或者解决方案去解决这些问题?
董方亮:雷老师这个问题问的特别好。首先来讲,我们认为很多细分的市场,它需要这种比较能满足细分市场需求的处理器或者一种解决方案,那么从
GPU 的角度来讲,比如说针对自动驾驶,其实我们自动驾驶不是单独用GPU,我们是用到 SOC 的方案,也就是说我们自己有自己的 CPU
加我们的 GPU,只是说我们会很大程度上依赖于 Deep learing 的这种计算能力。所以来讲,比如说在自动驾驶的这种领域,我们会有自己SOC 的方案,我们 SOC 是我们自己的 CPU 加我们自己的 GPU ,这是一个硬件方案,同时在软件方面也有准备,比如说我们第一个是底层的 CUDA,第二个是 CUDA 之上加速的库,还有网络的优化,还有上层的应用,从硬件到软件整个构建了自动驾驶的生态系统,这是我们看来自动驾驶比较好的解决方案。
如果推广到其他领域,我们认为,比如说我们在 IVA 领域就是智能监控领域,或者智能分析的这种领域,我们也有专门的产品,我们这个产品除了硬件型的还有一些软件的知识,这都是在特定的领域,我们会去找比较好的方案和产品去支持和配套。
雷鸣:就是说,GPU
为核心的话,你再结合一些 CPU
或者外围的一些设备,给一个产业提供更接近产业的解决方案。这里面我想了解一下,我们说从现在往未来看的话,也看到一个很有意思的趋势,比如说像
Deep
learing,其实一个典型的我们叫互联网或者软件企业,其实它在深度学习各个方面,在全球是非常领先的,我们也看到它在踏入通用计算硬件的领域,有所谓的
TPU,我也看到咱们这边就,硬件之外可能也在做一些软的东西,像行业解决方案,最后往未来看,它会发展成为一种像软件时代或者说电脑时代,做硬件的就做硬件,做操作系统就做操作系统,做应用就是做应用的,还是说会变成将来就在一个产业里面有一种垂直化的倾向?比如说我这个硬件、软件然后服务通吃,这个你怎么看?NVIDIA
是硬件起家的,会不会一直往软的方向做的越来越远?
董方亮:从
NVIDIA 的角度来讲,其实当年我们在做视觉计算的时候,我们认为当年不是纯做显卡,NVIDIA 的GPU
和我们的显卡之所以现在能在市场上得到很高的认可度,其实是依托于我们构建了一个比较好的 SDK 的生产链,我们有专门的 SDK,我们的 SDK
包括了在对应这种场景的,比如说火焰场景、水场景、特效场景,这些场景其实都有 SDK
支持,也就是说当有游戏的开发者开发的时候,他调用我们的引擎,他自己不用重新再写这样的代码,他可以调用我们的引擎,调用引擎是一个双赢的局面,游戏开发者可以聚焦于游戏推广,聚焦于游戏情节的设置包括上市包装。对我们来讲,好处就是当消费者使用英伟达显卡的时候,玩这款游戏特效是为英伟达做支撑,因为英伟达做的支撑,我们表现的效果非常好,我们把这种成功经验从视觉计算放到
AI 计算的时代,我们也会在软件方面做很多的 SDK。比如说我们自动驾驶,有一套针对自动驾驶的 SDK
包括解决方案,其他的也有配套的解决方案。
所以说我认为从底层硬件到上层的软件,包括 SDK 这个层面我们都会去做,我们也注意到 Google
这种企业也在做自己的东西,我们认为这也是一个蛮好的过程,因为这样一个产业自然就会发展,因为 Google 做了以后大家会去用它的产品,我们的
GPU 也会支持它的产品,甚至对它的产品进行优化,这种过程会导致这不是说我们跟 Google
在竞争,而是共同创造了一个很大的市场,这样的市场可能不光包括 Google
和英伟达,甚至很多公司都会进来发展,如果这个市场是一个你抢他、他抢你的市场,这样的市场就会打来打去。
雷鸣:那就是说面对未来海量的计算,现在还是整个产业的一个起点,现在竞争反而促进行业非常快的发展。
董方亮:我觉得这样能把产业做的很大。
雷鸣:现在来看的话,我们这个课程比较感兴趣就是未来的几年,或者
5
年左右什么东西是未来几年能够落地,或者说能产生实际价值。这一块我想可能有两个问题,一个就是你刚刚也讲了很多的应用,刚才讲的比如说在医疗上,自动驾驶上,你刚才讲了是
8个还是多少个领域来着?我想问一下从你个人来看,你觉得未来5年的话呢,哪一些产业,哪一些应用上的落地,你觉得感觉起来更务实,也就是说作为一般的用户,我们能够使用或者感受到这个服务的存在,而不是说我们看了一下
Demo,就觉得挺酷的,但是 5 年之内我感觉用不上,5年之内哪一些东西能够覆盖到千家万户?你感觉哪一些东西会更有可能性?
董方亮:我个人的观点仅供大家参考,我认为第一个
5年内如果能落地的,比较好的是医疗健康这个行业,因为医疗和健康是人类自己去追求自己幸福的一个很好的方向。也就是说人在现在这个物质社会比较充分的情况之下,下一步考虑的是健康。所以我认为基于
AI 的医疗和健康,是一个很好的发展方向。我也认为它会在 5 年甚至 5 年之内就会落地,大家会感受到它的好处。
第二个我强烈的觉得,自动驾驶会给以后未来的交通带来完全不一样的感受。因为自动驾驶解决了很多问题,比如说改善现在的交通,甚至改变现在的生活方式,当大家真正坐过无人车以后,会感觉科技比你想象来的还要快,这是我个人理解的两个行业,可能还有其他的行业,可能接触的不太多,所以就没有考虑。
雷鸣:我们觉得最近我和很多行业专家也在沟通,很有意思的一个点就是,最近一两年,很多行业的人,他的观念确实在改变,举个例子就像医疗,以前的时候很多人跟医生聊,说用科技怎么帮你什么的,医生还是蛮不屑的,现在在聊的时候医生还是很关注这个问题,包括法律,我和国内公司的合伙人就有过沟通,他们说这个东西现在进展非常快,一些公司也在开发这种软件系统,他们说在法律上,非常重要的一个环节就是我们叫找证据,分析各种相关的法律条文,做一些调研等等,美国现在在这方面做的非常好,能节省大量找东西的时间,并且使得信息更完备,以前很多的行业,他们对
AI
的感觉,还是一种很未来很科幻的感觉,现在很多人已经意识到这个东西真的会——或许很快就对他们的产业产生非常深的影响,现在很多各行各业里面的专家企业家危机感还是蛮强的,都在不断的想学习了解去探求
AI 的边界到底在哪,到底对我行业有什么影响。这一块我觉得也是一个趋势。所以我觉得这一块我们刚才讲到未来 5
年会发生什么,很多时候你并不能够很准确的预见未来,但是有时候我们会聊一个思路,虽然说我们不知道明天会怎么样,但是我们知道有些事情一定会来的,只不过是时间问题,也许
5
年不行就是10年,比如说自动驾驶,今年初百度说三年能上路,或许三年能上路,也许三年不行,就需要5年,或许10年,但我们看到这条路一定会走过去的,只是一个时间问题。
当然在座的各位,其实我觉得你们应该希望它走的稍微慢一点,因为你们还没毕业呢,等你们毕业的时候都走完了,那你们应该挺郁闷的。(笑)
回过头来讲,也不用过多的担心这个事情,我觉得未来5年的话,人工智能领域的人才是高度稀缺的,当我们回顾互联网时代包括软件时代,很多时候并不见得第一批的企业都是最成功或者最大的,今天我们看到这个机会是不断的展现出来的。互联网咱们知道最早的一批企业门户,,雅虎是1994年创办的,今天好像已经卖掉了,亚马逊是1996年
创办的企业,Facebook 是2004年创办的企业,巨大的机会都是一波一波的,后面的企业没有体现出市值那么高,但是体现出很大的潜力,像
uber 和 Airbnb
都是不断的来的,人工智能巨大的潜力是在这儿的,大家把基础学扎实了,不断的了解一些产业,你喜欢哪一个产业,早点跳进去感受一下,其实我觉得机会现在来看各个产业都有。
像我和很多影视业的人聊的时候,他们觉得这事对我们有什么影响?做点特技还是预测一下电影的热卖,还能干一些什么呢?合成行不行?其实可以有一个想法,因为真能做到很逼真的效果,全部计算出来的,你想电影是不是不需要演员了,这个时候一部电影就变成一部计算了,把剧本往里一送电影就出来了,这事还挺神奇的。
到这个地步我们可以畅想,剧本如果实施生成是不是就可以个性化了,根据表情后面生成结果,有些人喜欢悲剧就看悲剧,每部电影完全不一样,每个人看自己的就可以了,甚至主角让我去演,王子是我,公主是你喜欢的那个,所以这个东西还是会蛮有意思的。
我们现在转到一些咱们课堂的学生,包括网络直播用户的一些问题上。
我看看第一个问题,有同学问,请问一下英伟达在量子计算领域有没有什么突破?
董方亮:这个问题问的有点远,据我所知,我还没有听到我们公司在量子计算方面有什么实质性的开发,因为量子计算应该是一个比较前瞻性的学科。
雷鸣:这一块我稍微了解一点,恰巧也是我们北大的同班同学,也是北大的师兄,是这个量子领域全球华人圈里比较顶尖的一个同学,最近他可能会从学术界离开进入产业界,他研究量子计算应该有20来年,以前的时候我都是每次见面都嘲笑一下,我说这个东西研究了半天到底是干啥的,不知道。现在来看的话,它确实有可能产生非常颠覆的未来,就是它的运算能力的话呢,和我们这儿比是一个指数级的。现在的话,那天说IBM研究50位的量子计算,为什么?49
位是现在最牛的超级计算机能力。现在还做不到通用计算,只能在一些很特定的领域里面做一些尝试,但是现在本身就是一个充满奇迹的世界,也许哪一天真的有人把它搞到通用计算里面,真的能用,这个时候就会产生奇怪的变化,这个并不是眼前马上会发生的事情。
这里面有一个问题,就是说因为大家都知道现在所谓的深度神经网络是基于对大脑的某种模拟,就是神经网络,但是现在 GPU 运算虽然说跟 CPU 不一样了,但它还是一种计算。
这位同学问,有没有考虑用人的神经网络结构来搭建未来的深度学习芯片,就是所谓我知道,好像 IBM 在尝试做,国内中科院也在做类似的东西,对于NVIDIA来讲,在这方面是怎么考虑的?觉得这一块的发展未来会怎么样?
董方亮:我们简单来探讨一下这个问题,其实这个同学问的问题,从场景理解就是类似于针对某一个行业或者某一种场景的计算处理器,其实从我们的角度理解,如果针对深度神经网络用
DNN 做模型训练,最后拿到 MODEL
以后去做推演,这就是推演的过程,英伟达会做很多软件库包括硬件加固的优化,包括现在加速优化,所以这位同学提的问题,也正是英伟达在计算方面去做的一些努力,就是针对深度神经网络方面做的一些努力,也就是说我们也会去做针对专业场景的模型,针对这个场景中把模型训练好就可以了。
雷鸣:这一次回答了两个问题,我是搞搜索的,现在对于全球这么多的信息量要把它搜集起来建一个索引是非常可怕的事情,是非常慢的,整个索引库更新并不是一瞬间全部更新一遍,它是一个逐渐更新的过程。但是检索的话,它的要求就是回车一瞬间就要出来的东西,所以这两个完全不对等,所以现在深度学习也是一个挺头疼的问题,就是说我训练没有关系,训练上几个小时几周,用几百个
GPU 都没有关系,我认了。但是用的时候可不行,用的时候别人一回车几百个 GPU
算几个小时这事就废了,你刚才也讲了做一些这方面的工作,未来会不会在这方面继续促进?从硬件方面会有一些什么继续的工作?
董方亮:其实这是硬件和软件双方面的工作,比如说现在大家线下训练了以后呢,如果进行
GPU 线下训练以后,其实针对现有训练好的模型,英伟达是提供了优化的工具大家可以去用,最早推出的时候叫GIE,现在叫
TensorRT,它的原理就是把训练的模型再进行简化来提高效率,针对现在主流的 Inference 都做支持,这是软件方面的优化。
硬件方面我们一直在做这方面的工作,它会提升计算能力,我们会做一些优化和计算能力的提升,在 Inference
端有一个很好的计算的平台。另外有一个问题,就是现在有些人说训练好了以后,这个模型好像去做 Inference
会不会比较慢,这里面就牵扯到,可能使用的网络架构层次比较深,它没有去做一定层次的优化,比如说像我们知道的中国的百度这样的公司,他们其实在深度学习上,有非常优秀的工程师,他们对识别的准确度在一定情况下进行了精简,这是企业科技实力和技术实力的很好体现。
雷鸣:现在各种开源、论文也比较多,有遇到这种需求的,其实也有一些论文会讲到一些所谓的怎么把深度学习模型做简化的一些方法,确实这一块还是有挑战,我就在想,这些在未来有没有一种方法自动的把模型压缩一下,压到最小,保证损失也比较小,这个就会感觉特别舒服。
还有一个问题就是关于运算的文化,包括 CPU 和 GPU,就是说做一定量运算的话,其实单位运算能耗还是非常高的,尤其是跟人的大脑比起来,单位运算能耗很高,从能耗的角度来考虑的话,NVIDIA 对单位能耗的运算有什么规划?
第二个问题就是,有没有考虑 NVIDIA 向端移动的过程,比如说做一个卡在手机里面,会不会有 NVIDIA
的深度学习卡,这种一个是能耗的下降问题,第二个就是说下降的速度肯定是有限的,有没有考虑做专用低功耗深度学习相关的 GPU
的设备,放在端里面使得它的功耗比较低一些,因为移动设备肯定装不了一个显卡,肯定就挂了。
董方亮:这个问题问的也很好,从英伟达产品的角度来讲,其实移动端也是我们公司重要的市场,比如说智能摄象头,我们有前端处理器,它不是纯
GPU,它是 SOC,这个 SOC
它的功耗会很小,比如说现在可以讲,我们现在的合作伙伴,比如说海康智能摄像头,里面有用到我们的解决方案,我们的解决方案效能会提高很多,这都是前端很好的应用的例子。
回答刚才一位同学问的问题,他说他的机器人能不能用一个功耗比较小的 GPU 或者 SOC
,所以我在这里再回答一遍那个同学的问题,如果把机器人当做一个智能体的话,主要是看这个智能体就三个,一个智能体在环境中怎么交互的,状态怎么样,动作怎么样,这个取决于你对智能体的定义,让它完成什么样的功能。如果你需要它完成比较酷的功能,比如说,我只是简单举个例子,我相信如果你要一个行动很慢的机器人,这样子的机器人可能用不到很强的计算能力。但假如说北大的某位同学很酷,他开发了一个机器人保镖天天跟着他,有什么事情跑在他前面,眼观六路耳听八方,这样的机器人需要很强的运算能力,否则用一个很小的计算处理器,他完全没有办法满足这样的需求,所以可以考虑一下,比如说比较特殊用途的。
雷鸣:这是本学期的公开课最后一节课了,我们下一节课是咱们作业的汇报,下次课就不再做公开了,作为最后一节课最后讲几句。
第一,非常感谢各位同学以及网上很多的朋友一直在关注这个课。我们希望这个课通过十三讲的内容能给大家带来一个比较完整的 AI+
产业的体验,当然因为时间的原因,有一些产业还没有涉及,比如说我们说像机器人的产业,智能制造等等,稍微少一点,这些我们未来一年在设计课程的时候会考虑去重新做一些调整。以后的话,虽然课程结束了,我们还会有一些所谓的开放式的系列讲座,在网上我们还会继续的直播,也会找一些产业加上技术的顶级专家跟我们一起分享行业最新的进展,以及怎么用
AI 技术改变一个行业,这些我们都会持续的做,也希望对 AI 和产业结合感兴趣的同学、朋友或者行业人士可以持续的一起关注,然后共同去把 AI
对整个产业和社会影响这件事情能够做的越来越好。作为整个课程的组织者和主讲老师,我非常感谢大家的参与,最后我们再次以热烈的掌声感谢本次的演讲嘉宾董方亮老师!
董方亮:谢谢!
视频回放链接:
http://www.iqiyi.com/l_19rrdfaczv.html
点击“阅读原文”即可观看
“人工智能前沿与产业趋势”课程由北京大学开设,并面向公众开放。课程由人工智能创新中心主任雷鸣老师主持,共14节,每节课邀请一位人工智能领域顶级专家和行业大咖作为主讲嘉宾,就人工智能和一个具体行业的结合深度探讨,分析相应技术的发展,如何影响产业,现状及未来趋势、对应挑战和与机遇。所有课程相关信息、通知都会在下方的公众号发布。
扫描下方二维码,加“小智”为好友,自动拉您进入课程交流群
扫码福利:
⊙ 直播、录播课程地址
⊙课程精华文字版
⊙人工智能交流群入群方式
⊙ 群内每日精选AI内容更新
⊙ 参与群内活动并有神秘大咖进群交流互动