专栏名称: 中国人工智能学会
关注中国人工智能学会官方公共账号,收取学会的科普信息、新闻动态、活动预告及人工智能领域科技前沿信息。
目录
相关文章推荐
爱可可-爱生活  ·  【open-r1-text2graph:开源 ... ·  昨天  
烂板套利  ·  领益智造,踹开AI的大门! ·  2 天前  
烂板套利  ·  领益智造,踹开AI的大门! ·  2 天前  
AI范儿  ·  DeepSeek 平替 99% ... ·  2 天前  
AI范儿  ·  DeepSeek 平替 99% ... ·  2 天前  
新智元  ·  Ilya又回来了!神秘初创SSI估值200亿 ... ·  3 天前  
51好读  ›  专栏  ›  中国人工智能学会

2017GAITC 未来已来--人工智能创新创业分论坛实录丨苏中:AI Platform for Business

中国人工智能学会  · 公众号  · AI  · 2017-06-30 15:50

正文

主题:未来已来--人工智能创新创业分论坛

时间:2017年5月22日下午

地点:国家会议中心402A


本文根据速记进行整理


AI Platform for Business: Research Roadmap

苏中

IBM中国研究院大数据及认知计算研究总监



很高兴来到这样一个场合,刚得知秘书长让我参加这个创新创业论坛时,我觉得和自己的身份有一点距离。我来自于企业研究院,不过从技术⻆度来讲其实有共通的地方,我所在的IBM中国研究院不断地制造新技术和新的产业方向,改变了我们公司,所以我想今天讲的一个话题是在1万米的高空从技术的眼光看看人工智能对于行业发展的变化,哪些关键的技术可能会被改变。那么既然讲到了,想给大家一点感觉,简单回顾一下历史。因为从历史上来看,计算机产业从过往来讲变化很大。大家也许不不太清楚,最早的程序员都是女生,或者是说多半是女生,原因是最早的程序员面对的是机器、是硬件,程序怎么编?通过一个硬件后面板子的连线,会连成这样,把连线改变,程序逻辑也就改变了。所以,编程实际上相当于硬件上通过连线来做,女性在这方面或许更有优势, 会更细致一些,有一根线松了或连错了,程序会出BUG了。



计算机自出现以来有很大的发展,它可以开始编程,用软件的方法来编程是很大的变化。最早的硬件计算机,能够做简单的计算,比如人工普查、导弹的弹道计算,所有东西都固化。当你写一个程序开始交流,这也带来了像PC或者是手机进入我们视线中,大大改变了我们的产业,所以现在的计算机是很强大的。现在有一个新的方式,我们可以通过计算机交流,这个交流方法是说我们除了有这样的程序以外,还可以通过训练一种模型,让计算机通过数据解决现实中的问题。所以,我们讲计算机其实是在过往100年间发生了很多的变化。



其实AI 也是一个老话题,2 000多年前的古希腊, 比如亚里士多德这些人,他们讲一些逻辑、辩证和思想,现代AI逻辑推理的思想最早可以追溯到他们。但是我们把AI用在计算机系统里面,这是计算机发明以后。早期很多发明的人用AI做很了不起的事情。70年代有人用AI做推理,如能不能把红色的三角形给我搬起来,也许上面还摆着一个另外的小物体,必须要把那个物体搬开,然后拿出来。在1973年有人用AI的技术去做画,这个很了不不起。我记得昨天的主论坛说到了计算机是不是能够有创造力,这个创造力是怎么来的。其实人们都见仁见智,但是有一点很有意思,多数的艺术家的艺术都说是来源于生活。他也是通过一些大数据,通过生活中的一些经历,或者说他小学比如说画画,要向很多的画学习,就是说他小时候做过很多的基本功。这种机器画画这件事,也做了很多,1973 年开始做。我们现在来看很多人用深度学习方法来做,也取得了很好的效果。比如,用深度学习去学习梵高画的模式,给他任何一张照片,都能画成梵高的状态。让机器来教书,教的是代数,可以看到在五六十年前以前,我们就试图让机器做一些像艺术家、老师的工作。所以如果这样来看,今天在讲我们AI,刚刚说把这些机器人放在这个酒店里去帮助酒店去送水、送东西,其实这些工作是一脉相承的,只是说今天我们可以做得更好。



最近也有很多有意思的事情,明天AlphaGo和柯洁下棋,机器在下棋这个问题上已经无数次证明过人的能力。最左上角这位老先生是我们IBM 的老前辈Arthur Samuel,1956 年写程序很难,没有高级语言,就是通过开关连线和打孔卡片来写程序,在IBM701上做算法、做国际跳棋。里面用搜索树的方法来做国际象棋的方式,那时好像已经有直播了,战胜的美国一个洲际的冠军,很了不起了。下棋这件事人们觉得很了不起的事情。小区里经常看到一些退休的老头下象棋下得不亦乐乎,越是年龄大可能越会觉得这个里面有很多的哲理。右上角的人也是很了不起的,Gerald Tesauro,他现在仍然在IBM研究院工作。在1994年他通过机器和机器自己下去优化西洋陆战棋棋局评估策略,其实这些技术和AlphaGo 的技术是一脉相承的,可以看到整个发展历程。下棋是很简单的过程,棋本身的规则很简单,输赢信息在台面上,所以对人工智能的很多人来讲,下棋是一个验证算法是不是有效的很好的方式。比方说,现在谈到了很多所谓的对抗神经元网络,可能很多都是因为AlphaGo做了很好的榜样,这是很有意思的工作。但是其他,随着搜索状况很多,信息公开的是能计算的;有一些信息很难计算,比如说语言是非常非常难计算的。语言的产生,最近研究语言学的同行做了一项有趣的分析。发现不同语言文字在大脑里的兴奋区域不同,这个关键字在这个区域,另一个关键字在脑的另一个区域,他们把结果画了一张图。人类历史到现在有几百万年,甚至上千万年时间,语言同样也进化了这么多年,自然语言理解这件事是非常非常难做的。2011 年时IBM 做过一件事,沃森试图解决其中一部分的问题,问答机器是不是能够做得比人好。结论是,沃森系统打败了人类比较好的专业选手,从这个角度来讲,好像我们离智能又近了一步。原因是说,即便图灵测试也是一个问答的场景,问答做得好,其实也打开了一扇大门。


今天我们讲计算的变化,从这个打卡机、打孔机到可以编程的,大家手里用的手机也好,电脑也好,服务器也好,可编程的系统,到今天整个的计算机产业突然之间有一个新的话题,就是AI。这一轮AI非常热。前年我参加中国第一届人工智能大会(CCAI),那时讲人工智能59 年,去年是60年,会场上都是人山人海。回忆我当年本科毕业报博士方向时,很少有人愿意选AI 的方向,很冷门,这几年发生了很大的变化。也就是说不到20年的时间,为什么这次会发生那么大的变化?有两件事促成了这次人工智能的爆发,让AI现在的算法和技术可以用在场景中。 一是大数据分析在各行业的成功应用,二是计算机本身的计算能力飞速的提高,让像深度学习这类运算复杂度极高的算法重获新生。


我们可以想象现在生活在数据时代,已经没有什么隐私可言。在座的各位没有微信的有几位?真希望有两位能举手。我问问为什么,你的生活、你的朋友圈也变大——充分互联了。原来有六度空间,现在可能不需要六个了。原来心理学的试验说,人一辈子有150个朋友,最好的10个左右,女生闺密只有1位;现在我听说有一些人的朋友圈超过了他的量,很多超过了5 000位,这是很难做到的,而且这么多人的朋友圈怎么看得过来。可见技术的发展让人们的沟通变得更顺畅。回过头来讲数据变得更容易了,那么多东西,我们首先构建语言模型很难达到像真人的场景,第二个是有数据没有足够的计算能力还是不行。


很多年前,我有同学利用循环神经元网络做语音识别,训练也不大,很小的一点数据,得到结论也很有意思,神经元网络并没有提高识别率,反而降低识别率了,为什么?一个是数据不够大,如果数据大了,训练时就不能收敛,现在我们知道了为什么不能收敛了。我们需要多少个GPU,多少个CPU在一起算,分布式运算是能够收敛的,现在的计算机可能算两个月,那么大量的数据不能收敛了。过去计算机比现在慢了不知道多少数量级,不可能做到这一点,所以海量的机损能力也让这个数据可以有很好的基础。现在相当于让八九十年代、七八十年代发表的论文所说,以前无效的东西,在大数据的智能环境下就有效了,像现在的深度学习一样的。昨天我记得主报告论坛里面讲到了一共就DNN、CNN、RNN三个锅,三口锅一起训练。虽然话讲得很简单,但是确实是这样,很多的数据和工具加上工具能力就变得简单化了。玄妙的东西也变成调参数的过程了。我们往上看一下从整个人工智能角度来看,很多的技术领域是非常难解决的。到现在为止并没有说人工智能在发展到某一年、某一天,突然之间就开了窍了。而是某一个点、某一个应用上得到很好的验证,另外一个应用尝试也得到了不错的发展,仔细看很多领域仍然很难的。


IBM研究部门在人工智能领域主要研究四个领域的技术。


第一部分是数据理解,真正的难点是对非结构化的数据和场景的理解。 理解什么?给你一张照片,设想一个场景,人⽐机器人厉害的地方。你可以设想一个昏暗的灯光下有一个小台灯,有一朵玫瑰花,然后一男一女年纪相仿坐在那,男生抓着女生的手,旁边放着钻戒,这是什么场景。人可能基本上能想到这个场景,但是机器理解这个场景是很难的。它很难联系到这个场景是求婚。实际上我们理解一个图片的内容,到真的理解这个图片上的场景是一个很难的过程。


第二个是推理。推理就更有意思了,很多时候,我们的很多医生,我们说计算机、人工智能在很多行业里做得很好。比如,医生为什么变成名医了?因为他看到了这张图片,看到了这张病理,看到了现在的情形就能推出这个病人将来可能发展到什么状况;而普通小医生是看不不出来的,因为他没有见过这个场景。这个推理里很多地方是基于他的知识和经验,基于一些常识,让机器去学习常识是很难的,因为没有足够的数据。


第三点是人机交互。人机交互怎么做,用语言的方式、姿态的方式去跟机器交互,还是一个比较浅层的交互。尤其是中国语言是博大精深的,字⾯上的问题和真正意思不一样,也许这个词配合当时的场景,再配上语调可能表达的意思就不同了。


最后一部分是系统。我们搞计算机的,最后的网络是系统,能不能构建一个更有效的系统来解决这个问题,这里面有这么多技术,而我们只是选择这么一个技术,那么多技术需要解决。所以,这个领域还有很长的路要走,还有很多的机会。


这里我们举几个例子,希望给大家一点启发。比如能不能问机器人一句话,告诉我ICBC过去十年整个资产负债表的情况?它的华东地区的情况怎么样?银行的总裁经常问外面的分管行长这么一个问题。机器做这件事的难点在哪?在于如何理解这个文档。举一个简单的例子,比如一家上市公司,这家上市公司有财务报表,可以把这个财务报表的信息拿下来,人可以看得很清楚,有一张图表说3 月份它的数据是多少、4 月份是多少。但是建立的场景是这个人有一些金融常识,他知道这个图表的横轴和纵轴什么意思,波动代表着什么?这是需要一点时间的积累和经验的积累才得到的。但是,你让机器理解这个图表是很难一件事,且不说理解里面的语意内容,把这个pdf文件的内容抽取出来,变成数字化都很难。因为图表有很多种,上海交易市场是一种情况,各个公司又都有自己的图表,转化为PDF变成了一张图,从图中准确的恢复文字间的语义关联在技术上是很困难的。








请到「今天看啥」查看全文