(1)
今天跟大家讲个故事。
1983-1988年,我正在卡内基·梅隆大学读计算机博士。
我正忙着暑期教书,秋天投身奥赛罗人机博弈(黑白棋游戏,那是机器第一次真正意义上打败人类冠军的比赛)。
我的导师瑞迪教授(Raj Reddy,图灵奖得主、卡内基梅隆大学计算机系终身教授、美国工程院院士)从美国国防部得到了300万美元的经费,用来做不指定语者、大词库、连续性的语音识别。
也就是说,他希望机器能听懂任何人的声音,而且可以懂上千个词汇,懂人们自然连续说出的每一句话。
这三个问题都是当时无解的问题。
而瑞迪教授大胆地拿下项目,希望同时解决这三个问题。他在全美招聘了30多位教授、研究员、语音学家、学生、程序员,以启动这个有史以来最大的语音项目。
我也在这30人名单之内。
当时的科研背景是,业界已经有类似今天深度学习的算法,但一直没有实现数据标准化,数据量也不足够大。
美国几大语音识别实验室(如MIT、 CMU、 SRI、 IBM、贝尔实验室)都是各用各的数据库,测试数据不同,训练数据不同,使用的语言模型不同,测试的词汇量也不同。所以都各称业界第一,大家莫衷一是。
而每个大公司都有自己的商业需求,比如说在语音识别方面,当年做打字机的IBM想做语音打字机,垄断美国电信的AT&T要求贝尔实验室识别电话号码,所以大公司并没有动力来帮助小公司或学校。而小公司和学校,往往只有资源做些较小的数据集,结果通常也不如大公司的好。
不仅如此,数据不标准对AI研究而言是致命的,最后导致很多问题,包括:
1、因为测试语料库不同,最后识别结果,大家无法复制,也无法验证。彼此不认可,而且因为数据没有打通,算法就更不可能打通了。
2、因为每家做的领域不同,最后的结果都不可比。有些领域词汇量小,比较容易,但是做出结果也可能不能通用。有些领域词汇量大,但是约束很多,所以能说的内容不多,导致比较容易识别,也不能通用。
3、因为每家训练集不一样大,而训练集越大,一般结果越好。所以,有可能结果做的好,被认为并不是靠算法,而是靠数据量大。
4、对于学术单位来说,最大的问题来自于没有足够的资源(也没有兴趣)收集、清洗、标注大量的语料。对于小公司来说,语料和计算力都是问题。
最后,瑞迪教授计划采用“专家系统”来完成项目,因为这个方法需要的数据有限。
专家系统是早期人工智能的一个重要分支,你可以把它看作是一类具有专门知识和经验的计算机智能程序系统,一般采用人工智能中的知识表示和知识推理技术来模拟通常由领域专家才能解决的复杂问题。