2017年5月21日-22日,由中国人工智能学会和中文信息学会联合举办的2017全球人工智能技术大会在北京国家会议中心召开,中国中文信息学会副理事长,拓尔思总裁施水才先生是本届大会程序委员会主席之一,这是中国人工智能界对拓尔思和施总在AI领域所做工作的高度认可。
拓尔思是中国第一个以文本检索和挖掘为核心进行IPO的企业,施总以《从大数据到大知识——NLP领域的投资机会》为题在会议上发表了精彩演讲。
其精彩观点赢得了与会听众的高度认可:
● 单独谈人工智能意义不大,ABC融合是必须的
● NLP是人工智能皇冠上的明珠
● 仅有深度学习是不够的,知识图谱也很重要
● 应用场景是变现的核心
● 人工智能是“人工+智能”,特别是对于类似智能客服等领域
大家下午好!今天我报告的题目是
“从大数据到大知识——自然语言处理领域的投资机会”
。其实搞投资也是挺苦逼的事,我最近才开始学习,投资的活很专业,没有常人想象的那么风光。我今天讲的题目有四个方面,
第一是对AI时代的看法,第二、NLP是AI皇冠上的明珠,第三、我们的AI之路及ABC融合的想法,第四、NLP领域的投资方向。
前面的不用讲了,我们不太愿意谈人工智能,但是不得不谈,因为大家都在谈。包括我们开复同学,前不久搞了一篇很高点击量的自媒体文章《我不是李开复,我是人工智能》。从投资的方向上来看,2016年麦肯锡的报告显示,AI方面的投资到2025年会到一千多亿美金。大家也可以看到,现在大的巨头们在AI领域的优势比较大,但是不是有他们,我们就没事干了?也不一定,这些巨头有数据,有人才,有云的基础设施,我们很难在通用人工智能领域跟他们竞争。但是,还有别的很多地方和领域是可以做的。AI为什么这么火爆?昨天大会上也谈到大数据、深度学习、高计算力等,本次大会第一个巅峰论坛非常好,但是我后来看了一下,6位嘉宾全是搞视觉的,没有我们搞自然语言的,是不是搞自然语言太难了?还是说搞自然语言的人不好意思上去?
大数据,深度学习,高的计算能力,导致了现在很多领域的突破,特别是感知领域。
但是不是说有足够的数据和计算能力就完了?这就涉及从大数据到大知识,昨天有一位嘉宾说深度学习,让计算机达到5岁孩子的水平。如果想要达到更高怎么办?
人工智能从计算到感知的技术(如图像、语音)现在已经取得了非常大的突破,但是认知这一块还是很难的,比如说认知领域的自然语言处理。
为什么说NLP是人工智能皇冠上的明珠呢?
我们国家在语言文字信息处理方面诞生了三家上市公司,
从上市的顺序来说,最早是汉王,做模式识别,后来的科大讯飞做语音识别,
然后是
拓尔思的信息检索和文本挖掘。
最近5年和语音相关的投资非常大,除了科大讯飞以外,还有云知声等等,这两年视觉领域的投资非常热,甚至于昨天的主持人还搞了一家这样的公司,我说可不可以投点?他说不行了,计算所不同意。但实际上我建议大家做投资要慎重,为什么这么说?现在技术的门槛已经变低了,这些东西已经基本成熟,关键是要找到应用场景。如果没有这个应用场景,变现就非常困难。而且这些公司基本上很贵,大家的目标都是独角兽,我们投资就要投资未来。
为什么说前沿的机会在NLP相关领域呢?我们看了一下国外调研公司的数据,
最值得关注的100家AI公司中,25%的项目和自然语言直接或者间接相关。
从另外一个角度,福布斯TOP50AI公司的融资中,16.2%的资金投向了NLP直接或者间接相关的领域,所以这个领域大有可为。我们投资很多时候是跟风的,都跟着美国跑,可以看出一些趋势。另外,从商业的视角来看,很多具有重要影响的技术和自然语言直接或者间接相关。为什么说是AI皇冠上的明珠呢?微软前不久提出一个口号是
“自然语言是人工智能皇冠上的明珠”
,现在我们中文信息处理界一致认为这个口号恰如其分。
从技术上来说,如何从识别到理解,图像要能够认出来,要靠人脸比对这些东西。
自然语言主要是解决理解的问题,这方面还是非常难的。
传统的NLP技术现在也在用深度学习,根据我们自己的实践,把传统的方法加上深度学习的技术以后,如分类、聚类、热点词抽取等等,这些都提高了5到10个百分点,在实践中非常有用。
另外,深度学习很多方法,像神经网络、循环神经网络、递归神经网络、卷积神经网络等,都有自己的用途。
在NLP领域集大成的焦点应用,就是BOTS,它是人工智能的聊天机器人,或者虚拟助理。
为什么这些大公司拼命在这个领域竞争呢?它是NLP技术的集大成。昨天微软黄学东的演示中,有几个例子非常好,表现出微软在这方面确实有自己领先的地方。谷歌,苹果,一直到微软小冰,Facebook等等,都是竞争的焦点。
如何提升人工智能的应用效果?
也有很多学问。昨天谈到强人工智能,我觉得强和弱的说法我不太赞同,强和弱是相对的,
我们更加强调的是
通用的还是垂直的
。另外,从投资的角度来说,
NLP支持认知计算围绕三大领域,一个是交流,第二是决策,第三是发现
。从应用场景来说,可能是智能的搜索引擎,还有智能的投顾等等。从市场空间来说,当然是很大的,不用讲了。
我
简单介绍下
NLP领域相关典型的项目
。这个是alphasense,里面大量使用了自然语言处理的技术。还有美国一家公司,Dataminr,分析社交媒体的数据,和其他数据进行结合,为投资者采取行动。前几年我们有一个组织叫SMP,我们经常讨论未来用社交网络炒股行不行?我在五道口金融学院经常问老师,我说智能投顾能不能搞?他们说都是骗子,这是某个基金大佬讲的。我昨天又问马卫华,他也不置可否。主要的问题是什么呢?要看市场是否有效,证券市场是无效还是有效?这个特别重要。我们也看了很多智能投顾的项目,我们也特别想投资这些项目,但是非常谨慎。还有一个是KENSHO,也是跟智能投顾有关的应用,大家可以上网去查这些公司的资料。
下面讲一讲我们自己的AI之路。
我从大学里出来创业,对学术和产业的认知感受颇多,挺难的。
我们1993年的时候搞了一个叫全文检索,就是搜索引擎背后最重要的技术。
后来成立公司,开始创业。
2000年的时候我们开始做自然语言处理方面的东西
,大家觉得这个领域发展太慢,市场空间太小,认知度太低。我们对标的公司想买我们,是英国的一家公司,这家公司后来120亿美金卖给了惠普。他们当时要买我们,3000万美金,我当时觉得挺好了,心也动了一下,但是觉得卖了干嘛去呢?不知道该干什么,就没卖,自己搞,后来我们也在创业板上市了。那个时候我们鼓吹大数据,其实不是鼓吹,
我们做非结构化数据处理,当然就是大数据重要的组成部分。
现在人工智能时代来了,我们要为大数据加点东西,我们叫
“大数据+AI”。
我们做AI的时候,回顾历史,最早是1990年,1990年的时候我们学校和国防科工委成立了人工智能实验室,当时参会的人很多,我记得钱学森发言,说“人工智能是人脑和手的延伸”。我们很兴奋,国防科工委给我们提供了很多基础设施,20部军线,免费使用,结果搞了三年以后失败了,人工智能的三次浪潮,我们就算一次,那个时候还是规则和专家系统的思路,没有大数据,计算力也不行。
对于人工智能我有几点看法,
对产业界来说,单独谈人工智能,意义不是很大,因为它是属于赋能的。
在现在实际的环境中,最近有一篇文章,讲到ABC融合是必须的,对比一下IBM,虽然人工智能搞得很早,其智慧地球的理念领先业界多少年,但是为什么最近业绩不好呢?可以看谷歌、Facebook、亚马逊,他们
有数据和云的基础设施支撑,所以他们发展得更好。
人工智能的投资和前几年的大数据差不多,最近我们要发布一个“北京软件名人榜”,我现在还不能说,因为还要经过北京市相关领导的审批。有一点是可以说的,
现在人工智能的热度已经上升为第二位,第一位还是大数据。
我参加过太多大数据的论坛,我总结就是“钱多,人少,估值高,不挣钱”。
我更加倾向于垂直的,行业性的,能互动的AI。
刚才有一位嘉宾说到智能客服,
如果这个智能客服跟人工系统不能结合的话,这个智能客服一定是不好的,必须要有人在参与。
核心是应用场景,对于某些应用领域,光有大数据还不行,还得有知识,甚至是大知识。