2017GAITC 未来已来--人工智能创新创业分论坛实录丨苏中：AI Platform for Business

中国人工智能学会 · 公众号 · AI · 2017-06-30 15:50

正文

主题：未来已来--人工智能创新创业分论坛

时间：2017年5月22日下午

地点：国家会议中心402A

本文根据速记进行整理

AI Platform for Business: Research Roadmap

苏中

IBM中国研究院大数据及认知计算研究总监

很高兴来到这样一个场合，刚得知秘书长让我参加这个创新创业论坛时，我觉得和自己的身份有一点距离。我来自于企业研究院，不过从技术⻆度来讲其实有共通的地方，我所在的IBM中国研究院不断地制造新技术和新的产业方向，改变了我们公司，所以我想今天讲的一个话题是在1万米的高空从技术的眼光看看人工智能对于行业发展的变化，哪些关键的技术可能会被改变。那么既然讲到了，想给大家一点感觉，简单回顾一下历史。因为从历史上来看，计算机产业从过往来讲变化很大。大家也许不不太清楚，最早的程序员都是女生，或者是说多半是女生，原因是最早的程序员面对的是机器、是硬件，程序怎么编？通过一个硬件后面板子的连线，会连成这样，把连线改变，程序逻辑也就改变了。所以，编程实际上相当于硬件上通过连线来做，女性在这方面或许更有优势，会更细致一些，有一根线松了或连错了，程序会出BUG了。

计算机自出现以来有很大的发展，它可以开始编程，用软件的方法来编程是很大的变化。最早的硬件计算机，能够做简单的计算，比如人工普查、导弹的弹道计算，所有东西都固化。当你写一个程序开始交流，这也带来了像PC或者是手机进入我们视线中，大大改变了我们的产业，所以现在的计算机是很强大的。现在有一个新的方式，我们可以通过计算机交流，这个交流方法是说我们除了有这样的程序以外，还可以通过训练一种模型，让计算机通过数据解决现实中的问题。所以，我们讲计算机其实是在过往100年间发生了很多的变化。

其实AI 也是一个老话题，2 000多年前的古希腊, 比如亚里士多德这些人，他们讲一些逻辑、辩证和思想，现代AI逻辑推理的思想最早可以追溯到他们。但是我们把AI用在计算机系统里面，这是计算机发明以后。早期很多发明的人用AI做很了不起的事情。70年代有人用AI做推理，如能不能把红色的三角形给我搬起来，也许上面还摆着一个另外的小物体，必须要把那个物体搬开，然后拿出来。在1973年有人用AI的技术去做画，这个很了不不起。我记得昨天的主论坛说到了计算机是不是能够有创造力，这个创造力是怎么来的。其实人们都见仁见智，但是有一点很有意思，多数的艺术家的艺术都说是来源于生活。他也是通过一些大数据，通过生活中的一些经历，或者说他小学比如说画画，要向很多的画学习，就是说他小时候做过很多的基本功。这种机器画画这件事，也做了很多，1973 年开始做。我们现在来看很多人用深度学习方法来做，也取得了很好的效果。比如，用深度学习去学习梵高画的模式，给他任何一张照片，都能画成梵高的状态。让机器来教书，教的是代数，可以看到在五六十年前以前，我们就试图让机器做一些像艺术家、老师的工作。所以如果这样来看，今天在讲我们AI，刚刚说把这些机器人放在这个酒店里去帮助酒店去送水、送东西，其实这些工作是一脉相承的，只是说今天我们可以做得更好。

最近也有很多有意思的事情，明天AlphaGo和柯洁下棋，机器在下棋这个问题上已经无数次证明过人的能力。最左上角这位老先生是我们IBM 的老前辈Arthur Samuel，1956 年写程序很难，没有高级语言，就是通过开关连线和打孔卡片来写程序，在IBM701上做算法、做国际跳棋。里面用搜索树的方法来做国际象棋的方式，那时好像已经有直播了，战胜的美国一个洲际的冠军，很了不起了。下棋这件事人们觉得很了不起的事情。小区里经常看到一些退休的老头下象棋下得不亦乐乎，越是年龄大可能越会觉得这个里面有很多的哲理。右上角的人也是很了不起的，Gerald Tesauro，他现在仍然在IBM研究院工作。在1994年他通过机器和机器自己下去优化西洋陆战棋棋局评估策略，其实这些技术和AlphaGo 的技术是一脉相承的，可以看到整个发展历程。下棋是很简单的过程，棋本身的规则很简单，输赢信息在台面上，所以对人工智能的很多人来讲，下棋是一个验证算法是不是有效的很好的方式。比方说，现在谈到了很多所谓的对抗神经元网络，可能很多都是因为AlphaGo做了很好的榜样，这是很有意思的工作。但是其他，随着搜索状况很多，信息公开的是能计算的；有一些信息很难计算，比如说语言是非常非常难计算的。语言的产生，最近研究语言学的同行做了一项有趣的分析。发现不同语言文字在大脑里的兴奋区域不同，这个关键字在这个区域，另一个关键字在脑的另一个区域，他们把结果画了一张图。人类历史到现在有几百万年，甚至上千万年时间，语言同样也进化了这么多年，自然语言理解这件事是非常非常难做的。2011 年时IBM 做过一件事，沃森试图解决其中一部分的问题，问答机器是不是能够做得比人好。结论是，沃森系统打败了人类比较好的专业选手，从这个角度来讲，好像我们离智能又近了一步。原因是说，即便图灵测试也是一个问答的场景，问答做得好，其实也打开了一扇大门。

今天我们讲计算的变化，从这个打卡机、打孔机到可以编程的，大家手里用的手机也好，电脑也好，服务器也好，可编程的系统，到今天整个的计算机产业突然之间有一个新的话题，就是AI。这一轮AI非常热。前年我参加中国第一届人工智能大会（CCAI），那时讲人工智能59 年，去年是60年，会场上都是人山人海。回忆我当年本科毕业报博士方向时，很少有人愿意选AI 的方向，很冷门，这几年发生了很大的变化。也就是说不到20年的时间，为什么这次会发生那么大的变化？有两件事促成了这次人工智能的爆发，让AI现在的算法和技术可以用在场景中。一是大数据分析在各行业的成功应用，二是计算机本身的计算能力飞速的提高，让像深度学习这类运算复杂度极高的算法重获新生。

我们可以想象现在生活在数据时代，已经没有什么隐私可言。在座的各位没有微信的有几位？真希望有两位能举手。我问问为什么，你的生活、你的朋友圈也变大——充分互联了。原来有六度空间，现在可能不需要六个了。原来心理学的试验说，人一辈子有150个朋友，最好的10个左右，女生闺密只有1位；现在我听说有一些人的朋友圈超过了他的量，很多超过了5 000位，这是很难做到的，而且这么多人的朋友圈怎么看得过来。可见技术的发展让人们的沟通变得更顺畅。回过头来讲数据变得更容易了，那么多东西，我们首先构建语言模型很难达到像真人的场景，第二个是有数据没有足够的计算能力还是不行。

很多年前，我有同学利用循环神经元网络做语音识别，训练也不大，很小的一点数据，得到结论也很有意思，神经元网络并没有提高识别率，反而降低识别率了，为什么？一个是数据不够大，如果数据大了，训练时就不能收敛，现在我们知道了为什么不能收敛了。我们需要多少个GPU，多少个CPU在一起算，分布式运算是能够收敛的，现在的计算机可能算两个月，那么大量的数据不能收敛了。过去计算机比现在慢了不知道多少数量级，不可能做到这一点，所以海量的机损能力也让这个数据可以有很好的基础。现在相当于让八九十年代、七八十年代发表的论文所说，以前无效的东西，在大数据的智能环境下就有效了，像现在的深度学习一样的。昨天我记得主报告论坛里面讲到了一共就DNN、CNN、RNN三个锅，三口锅一起训练。虽然话讲得很简单，但是确实是这样，很多的数据和工具加上工具能力就变得简单化了。玄妙的东西也变成调参数的过程了。我们往上看一下从整个人工智能角度来看，很多的技术领域是非常难解决的。到现在为止并没有说人工智能在发展到某一年、某一天，突然之间就开了窍了。而是某一个点、某一个应用上得到很好的验证，另外一个应用尝试也得到了不错的发展，仔细看很多领域仍然很难的。

IBM研究部门在人工智能领域主要研究四个领域的技术。

第一部分是数据理解，真正的难点是对非结构化的数据和场景的理解。理解什么？给你一张照片，设想一个场景，人⽐机器人厉害的地方。你可以设想一个昏暗的灯光下有一个小台灯，有一朵玫瑰花，然后一男一女年纪相仿坐在那，男生抓着女生的手，旁边放着钻戒，这是什么场景。人可能基本上能想到这个场景，但是机器理解这个场景是很难的。它很难联系到这个场景是求婚。实际上我们理解一个图片的内容，到真的理解这个图片上的场景是一个很难的过程。

第二个是推理。推理就更有意思了，很多时候，我们的很多医生，我们说计算机、人工智能在很多行业里做得很好。比如，医生为什么变成名医了？因为他看到了这张图片，看到了这张病理，看到了现在的情形就能推出这个病人将来可能发展到什么状况；而普通小医生是看不不出来的，因为他没有见过这个场景。这个推理里很多地方是基于他的知识和经验，基于一些常识，让机器去学习常识是很难的，因为没有足够的数据。

第三点是人机交互。人机交互怎么做，用语言的方式、姿态的方式去跟机器交互，还是一个比较浅层的交互。尤其是中国语言是博大精深的，字⾯上的问题和真正意思不一样，也许这个词配合当时的场景，再配上语调可能表达的意思就不同了。

最后一部分是系统。我们搞计算机的，最后的网络是系统，能不能构建一个更有效的系统来解决这个问题，这里面有这么多技术，而我们只是选择这么一个技术，那么多技术需要解决。所以，这个领域还有很长的路要走，还有很多的机会。

这里我们举几个例子，希望给大家一点启发。比如能不能问机器人一句话，告诉我ICBC过去十年整个资产负债表的情况？它的华东地区的情况怎么样？银行的总裁经常问外面的分管行长这么一个问题。机器做这件事的难点在哪？在于如何理解这个文档。举一个简单的例子，比如一家上市公司，这家上市公司有财务报表，可以把这个财务报表的信息拿下来，人可以看得很清楚，有一张图表说3 月份它的数据是多少、4 月份是多少。但是建立的场景是这个人有一些金融常识，他知道这个图表的横轴和纵轴什么意思，波动代表着什么？这是需要一点时间的积累和经验的积累才得到的。但是，你让机器理解这个图表是很难一件事，且不说理解里面的语意内容，把这个pdf文件的内容抽取出来，变成数字化都很难。因为图表有很多种，上海交易市场是一种情况，各个公司又都有自己的图表，转化为PDF变成了一张图，从图中准确的恢复文字间的语义关联在技术上是很困难的。

2017GAITC 未来已来--人工智能创新创业分论坛实录丨苏中：AI Platform for Business

正文

请到「今天看啥」查看全文