上周,就在柯洁泪撒乌镇的同一时刻,由机器之心主办的2017全球机器智能峰会(GMIS)在京举行。在这一巧合式的时间节点上,AlphaGo用三战全胜为人机巅峰之战画上句点;另一边厢,关于机器智能的无限未来正被热烈讨论着。
全媒派(qq_qmp)受邀全程聆听GMIS峰会,思忖传媒业智能结合的新“入口”,并专访全球顶级人工智能专家邓力、Jürgen Schmidhuber、Stuart Russell及Gary Marcus,聊聊机器与人类的过去、现在和未来。
干货打捞:人工智能前沿思考
人工智能的研究历史已有70余年,语音识别是四大基础研究方向之一,从实时语音翻译,到智能人机对话,如何才能拥有一个能“听懂”指令的机器助手,人类的实践从未停止。
一场人机语音识别PK战
GMIS峰会现场安排了两位“机器速记+同传”——讯飞听见和搜狗同传。从现场体验来看,讯飞及搜狗在中文语音识别不相上下,不过在“英翻中”上,全媒派(qq_qmp)了解到本次讯飞和搜狗均采用的是人工听录+机器识别。
有意思的是,在柯洁vs AlphaGo人机大战结束的第二天,GMIS举办了专场“人机速记大战”,由搜狗“汪仔”对阵人类速记员,历经普通话、方言、中英文混录等5轮PK后,搜狗听写在准确率上最终“战胜”人类。
距离真正的人机自由对话还有多远
那么,我们关心的问题是,为什么让机器“听懂”,甚至“会聊天”如此重要?
在物联设备爆炸性增长的态势下,面对海量信息小屏化、甚至无屏化呈现,语音和语言就成为“端到端”复杂交互的最佳实现手段之一。从传媒应用层面来看,目前应用的“聊天机器人”仅囿于文本对话,且能够对话的信息十分有限。而语音识别技术则有可能让机器真正实现编辑+档案员的角色匹配。
腾讯 AI Lab 副主任、语音识别及深度学习领域的著名专家俞栋曾提到,语音识别可作为其他产品的前瞻处理工具,如从口语翻译出发做语音信息检索,“要查某个时间播的某条新闻,只要输入内容,就能查到是什么时间段。”
在GMIS主题演讲中,俞栋指出语音识别技术虽已有长足发展,但距离人与机器的自由交流还有不小的差距。俞栋带来语音识别四大前沿研究,包括更有效的序列到序列直接转换模型、鸡尾酒会问题、持续预测与适应的模型及前后端联合优化。
“人在鸡尾酒会这样非常嘈杂的环境中能够把注意力集中在某一个人的声音上,屏蔽掉周围的说话声或噪音,非常好地听懂其要关注的那个人的说话声音。现在绝大部分的语音识别系统却没有这个能力。”
更进一步来看,如何解决“认知”问题则是智能对话交互的一大难题。上海交通大学教授、思必驰联合创始人及首席科学家俞凯认为,“对话交互的最大难点在于认知,认知最大的问题是,到底这个问题是什么,我们并不确切地知道。”
搜索的终极目的是深度问答
“汪仔”在“速记PK”中获胜,其实也在意料之中,但在需要语境及语义联想、转化的处理上,机器明显不具备深度解释能力。搜狗CEO王小川认为,现阶段的关键词搜索已经非常智能,但实现机器对用户提问的精确回答才是未来方向。
“搜索的未来是问答,一种很深度的问答”,王小川说。知道用户在问什么,其实也是认知学习需要解决掉的问题。 “我们认为,必须以问句方式来提问、以自然语言方式来提问,而不是关键词,这是我们畅想到搜索未来要做的事情。今天我们人工智能技术还不足够得高。”
王小川演讲ppt,指出人工智能发展的四个阶段
AI商业化应用有何必备要素
关于人工智能如何“取代”人类的威胁论尘嚣日上,但在讨论威胁之前,如何构建商业AI应用框架才是更值得关心的问题。这关系到各行各业,尤其是在资讯分发、营销、金融、医疗等领域,机器如何更好地掌握业务规律?
第四范式创始人戴文渊从5个维度来谈AI商业大脑,包括大数据、外部反馈、算法、计算资源、需求,问题直指企业应用痛点:如何让机器学习的过程变得更简单?如何在降低成本的同时,拥有AI能力?
谈及大数据,要破除一种迷思,数据不是“越大越好”,也并不是有数据就行。我们需要“有意义”的数据,比如过程中记录反馈的数据。“通常我们会对客户提供一个服务,这个服务可能收到正反馈,也可能收到负反馈,我们把这个过程收集下来”。
其次是反馈,这里重点来看推荐领域,推荐系统迭代的最大的不同是什么?戴文渊的观点是:
“过去的推荐,是推荐相关内容,强调推荐结果的相关性,但机器不知道什么是相关与不相关。现在,我们把相关性数字化了,不再强调一定要解决相关性,而是解决点击率、阅读的时长、转发、收藏、投诉,这些能被数字度量,机器能理解,不断去优化。”
通用人工智能为何重要
所谓通用人工智能(Artificial General Intelligence),强调具备与人类同等智慧、甚至超越人类智慧的人工智能,能表现正常人来所具有的所有智能行为。
在目前的讨论范畴中,有观点认为世界上还不存在真正的“智能”,机器仍然受制于设计者的限制,无法理解“意义”。纽约大学心理学教授、Geometric Intelligence 创始人、畅销书作者 Gary Marcus认为,通用人工智能才是解决复杂问题的基础,而目前仍有很长一段路要走。
譬如,人可以轻易做到“感知”图像内容,进而做出描述,机器却很难做到。而感知只是实现通用人工智能的一小部分,人类智能里面还有更多的元素,比如常识、推理、分析等。这些都有待人工智能在深度学习、跨领域研究方向的推进。
Gary Marcus指出,感知(Perception)只是人类智能的一部分,人工智能还有待长足发展
接下来,全媒派(qq_qmp)兵分四路,独家呈现对四位主题演讲嘉宾的深度专访。
专访邓力
无监督学习能否克服AI局限性?
邓力,对冲基金公司Citadel首席人工智能官,前微软首席人工智能科学家。深度学习、人工智能、自然语言理解及语音识别领域权威,早在2009-2010就首次提出并解决将深层神经网络应用至大规模语音识别。
什么是无监督学习?
在深入解读邓力观点之前,有必要对“无监督学习”概念做些科普。这一概念是深度学习的范式之一,相对于监督学习,无监督学习强调不需要人工输入标签,而只是告诉机器特征数据,依靠机器“无监督”式多种新算法,而达到不需要人为标注的自我学习的目的。
在邓力看来,无监督学习的一大优势是降低训练成本。在监督学习系统中,需要给出机器输入输出的数据的直接标注,然后才能让它自己学习。这一范式虽然很成功,但“提供大量输入输出成对数据”的成本着实太高。而无监督学习恰恰可以从取之不尽的无标注的互联网大数据应用,极大地降低了数据获取的成本。当然,随之而来的如何利用数据进行无监督学习,免掉输入与输出的匹配就是需要攻克的难点了。
“无监督学习比监督学习更有趣,但也更困难,”邓力说,“我们人类是很有希望的,因为在未来有越来越多无监督学习的技术以后,人类就可以从无标注的大数据获得更多的价值。”
为何语音识别成为应用切入点?
无论是GMIS峰会现场见证的讯飞、搜狗“机器速记员”,还是亚马逊、谷歌等巨头正在开展的智能语音助理应用,语音识别成为人工智能走得最远的实践技术之一。
如何看待这一现象?为何语音识别成为各大公司投身AI的切入点?邓力认为,这是因为语音处理技术发展得比较早也比较成熟,已经到全面落地阶段。结合深度学习,硬/软件相结合的语音对话系统研究已开展多年。从需求角度而言,语音识别应用的前景也更为广阔。
谈及AI创业,刚刚从微软离职加盟Citadel的邓力对入局者的建议是:“最好到人工智能技术已成熟的垂直领域进行AI创业。”
目前深度学习及AI应用有何局限性?
在行业畅想人工智能前景的同时,目前深度学习存在哪些局限性?
邓力指出,首先,深度学习的解释性目前做得还不够。“深度学习的方法会给你非常好的推荐及预测结果,但是它的解释性目前很差。比如自动驾驶,突然出一个事故,但你通常不清楚为什么会出现事故(黑箱)。”怎样把神经网络很自然地解释出来,并用它来指导实践,当意外或不好的情况发生时,解释性对于问题设计而言就非常重要了。
另一大局限在于标签数据成本太高。现在几乎所有的机器学习都需要大量的人工标签的数据,而这些数据非常昂贵。如何在不需要标签数据下进行深度学习,减少标签量,应用无监督学习方法,是急需解决的应用难点之一。
最理想的AI技术是什么?
在采访即将结束时,全媒派(qq_qmp)询问邓力,心目中最理想的AI技术是什么?“有一个统一的支撑性的技术平台或系统”,邓力说,各类垂直领域都可以集纳于这个具备普适应用的技术系统内,而不用再各成一套。至于实现的时间,可能是五年至十年甚至更远的将来。
专访Jürgen Schmidhuber
人工智能未来趋势预测
Jürgen Schmidhuber 是长短期记忆(LSTM)之父、深度学习元老,更是递归神经网络(RNN)技术发展中的关键人物之一,其在瑞士人工智能实验室 IDSIA 的研究成果影响了谷歌、微软、IBM 等公司的人工智能研究。
未来五年,机器学习将发展到什么程度?
Jürgen Schmidhuber 认为,未来五年会机器学习会得到大量应用。一个可预见的方向是智能手机会变得更加智能。比如,当你穿过步行区时,它会随时识别人脸,像个小伙伴一样跟你说话,在各种情境里为你提供帮助。它也许会说“嘿我发现那边走在街上的那个人是约翰,我们要过去打个招呼吗?”然后你说,“不,我欠他钱呢。我们找条路避开他吧。”那么它就会为你提供规避路线。
不过更为重要的将是家庭护理方面的应用。Schmidhuber 指出,目前在检测癌症、发现癌症细胞、观察人体组织影像等方面,机器学习已经能与医生匹敌了。很快,AI将在许多方面超越人类,很可能所有的医疗诊断都将发生变革,相信这些都会是未来几年内将发生的事。
前沿研究:通用人工智能仍是努力方向
自上世纪80年代起,Jürgen Schmidhuber就带领团队尝试通用人工智能(general AI), 这种系统不仅会通过学习,在某一领域不断提高,甚至还可以通过学习“学习算法”本身,学会如何提高、检查学习算法,从而了解自身学习的方式,也就是元学习——学习如何学习。Schmidhuber认为未来10年,人类将在学习“如何学习”这一领域进步颇多,从而更接近实现真正意义上的通用人工智能。
采访中,Jürgen Schmidhuber提到了自己与另外四位科学家共同创立的公司NNAISENSE在人工智能的实际应用方面取得的成绩。2016年12月,他们与奥迪尝试了一次概念演示,奥迪的模型车通过机器学习,学会在无指导的情况下停车,就像一个不会开车的孩子,学着通过不断的尝试来了解如何停车。
由于模型车的表面配有痛感传感器,因此它并不想与障碍物发生碰撞,因为这样会产生痛感,所以它会尝试着躲避,计算出动作序列,用以避开痛苦。这就是车子逐渐学会停车的方式,就像婴儿学步一样。
最好的机器人仍远不如人类
对于AlphaGo战胜柯洁的消息,Jürgen Schmidhuber为AlphaGo的成绩感到非常骄傲,因 DeepMind团队深受他学生的影响,创始人之一曾是Schmidhuber实验室的博士生。因此,最早在DeepMind进行机器学习和人工智能研究并且拥有这些领域的博士学位的人,都出自他的实验室。
不过他也强调,围棋虽然复杂,但相比现实世界来说仍相对简单。因为在这个19*19的棋盘上,选择是有限的。而在现实中,人类无时不刻都在接受成千上万的信息后作出决策。现实世界中需要的是递归神经网络(RNN)的能力,拥有反馈连接的网络,以便你能循着反馈连接记住你之前所看见的东西,理解你现处的境况。这也就是现实世界的复杂性所在,从这个角度来说,即使是最好的机器人也远不如人类。
观照传媒业:不必对AI恐慌
Schmidhuber介绍说,大型搜索引擎公司的做法如出一辙,他们查看你的搜索记录,利用长短期记忆(LSTM)和其他技术来预测你接下来最可能点开的广告。从你的浏览记录来看,你往往对广告并不感兴趣,你感兴趣的是你的朋友,某条新闻,某部电影等等。但是根据这些记录,他们,也即人工智能、学习网络,能够发觉你与另外一百万人的相似点,尽管你甚至都不认识这些人。
由于你们之间的相似度,AI能利用这点更好的预测你感兴趣的东西。这就是他们选择向你展示某些广告,而隐藏另一些广告的原因。这就是大型搜索引擎公司和社交网站能够夺走传统媒体的广告业务的原因,因为前者的广告是有针对性的,而后者做不到这一点。所以,目前对人工智能的使用的确动摇了媒体界。
不少媒体从业者都担心人工智能有一天会抢走他们的工作,但Jürgen Schmidhuber认为不用过于悲观。毕竟那些机器普及度更高的国家,比如德国、瑞士、日本失业率并不太高,因为不断有新的工作被创造出来。20年前,谁能预测到如今的视频博主、专业电子游戏玩家、网红这些职业呢? Schmidhuber甚至大胆畅想,未来机器人将承担所有无聊乏味的工作,而其他的则由人类负责。
专访Gary Marcus
更好的AI等于更好的人类吗?
Gary Marcus,一个现代意义上的斜杠中年:MIT的大脑与认知学博士,纽约大学心理学教授,Geometric Intelligence创始人,前Uber人工智能实验室负责人,语言学研究者,畅销书作家。
与多数AI科学家相比,Gary Marcus的思维角度非常独特。他认为要实现一个真正的AI,必须从认知科学中挖掘新的可能性。于是,他创立了Geometric Intelligence,开发出了一种可以使用更少的数据进行更快的机器学习的算法 XProp。2016年12月,这家公司被Uber收购,成为后者AI实验室的核心智囊团。
“终极AI”应为通用人工智能
在Gary Marcus看来,AlphaGo取胜并不代表AI已经在智能上优于人类。
“早在1997年的时候,AI(深蓝)就打败了国际象棋冠军,但这只意味着它在特定的游戏上比人类强。AlphaGo在围棋上赢过柯洁只是非常特定的领域。人类有的是通用智能,这意味着即便是一个青少年,也能学习去做复杂多样的事情,但是机器并没有这种能力,因此他们比人类更适合竞赛,但是这并不意味着他们可以如同人类一样灵活的处理海量的信息。而Alphago的胜利并不能改变这一点。”
Gary Marcus说,真正的人工智能具体什么样子,他也不知道。但它一定是可以适配多种场景的通用人工智能(Artificial General Intelligence)。
“我相信,没有人真正知道一个终极AI的样子。就像在电被发明之前,没有人可以描摹它的样子,后来人们知道它可以被用在汽车上,后来又知道它可以被用在电话上、智能手机上,甚至还支撑起了整个社交网络,如今它已经被应用在无数的生活场景之中了。我相信AI也是这样,肯定不止有一种形式的AI,就如同人类的智慧也不止一种形式,比如人们会创作音乐、演讲、设计汽车等等,AI会不断完成这些任务,以各种各样的表现形式。”
深度学习应该是什么?
和同行者们扮演的深度学习鼓手角色不同,Gary Marcus的演讲和作品,总是充满着冷静的“反叛者”气质,采访中他说更愿意称自己是一个“保守主义者”,“我并不认为大多数鼓吹人工智能和深度学习的人都对它有足够的了解,恰恰是真正在这个领域内实际研究者会知道它的难度和现在所处的阶段。”
“近几年来,基于深度学习的AI采用的形式并不算先进——人工神经网络。也即如大脑一样,以分层的方式组织神经元,神经网络通过数据填充不断调整连接方式,进而进行学习。但这样的网络的缺陷在于需要海量的数据。”和数据填鸭式的深度学习不同,Gary Marcus呼吁的研究方法是:更加认真地对待认知科学,尤其是发展心理学和发展认知科学。
“机器学习与人类学习有很多的不同的地方。机器的学习是基于大量的数据,记忆许许多多的案例,然后在这些案例之间做选择。但是人类的学习很不一样,因为我们并不需要海量的数据,我们会有自己的规则和侧重,并据此判断一件事情该如何做。我们会综合判断,并不需要一个特定的精确的例子告诉我们怎么办。我们关心的是事情发生的原因,但是机器只是实时的记录下所有发生的事情。”
替代or共生:更好的AI等于更好的人类吗?
AI变得越来越聪明,那么人类呢?
谈到这个问题时,Gary Marcus说:“事实上任何我们通过电脑做的事情,都是将其作为一个工具,不消说,我们更聪明。我们用手机记住电话号码,扩大了记忆空间;我们利用计算器去提升我们的计算空间。如今,如果你是一个围棋选手,你还可以用机器自我训练,但是机器只是工具,人工智能虽然比其他机器更高级,但是它仍然只是工具,用来提高我们自己的能力。”
Gary Marcus举了媒体领域的例子:“现在,我们看到越来越多的新闻是由AI写出来的,比如体育类关于比赛比分的预测等等,它可能并不像人类稿件那么棒,但是对于一些有章可循的日常性新闻,AI都可以完成;除此之外AI还可以在事实核查方面发挥更多的作用,它可以自动识别假新闻,当然,目前还比较困难。”
“但我并不认为AI可以真正理解一部文学作品的内核,例如AI可以写出仿版的莎士比亚,但是你通读全文会发现那根本不可称之为戏剧。我相信未来最好的记者仍然只是人类,至少二十年内不会有变化,或者永远不会有变化。”
采访的最后,在回答全媒派(qq_qmp)“和一个永远不会输的对手过招有意思吗?”时,Gary Marcus说:“一个更好的对手会让人类变得更强。”
专访Stuart Russell
5-10年智能技术将现颠覆式提升
Stuart Russell是加州大学伯克利分校计算机科学专业教授,以及人工智能统计中心的创始人;他还是AI标准教科书《人工智能:一种现代化方法》的作者,在人工智能研究领域享有盛誉。
AI有可能带来威胁,但我们或许担心错了方向
2016年11月,Stuart Russell教授与耶鲁大学政治学教授Allan Dafoe在《麻省理工科技评论》上共同发表了一篇题为《是的,我们的确担忧人工智能存在的风险》的文章,强调AI技术可能带来的威胁不应被否认或忽视,全媒派(qq_qmp)本次的专访就从定义“威胁”开始。
Russell首先作了一个澄清:“大家在新闻、电影里一定都看到过AI的威胁,但这个方向是有误导性的。机器人不可能一夜之间有了自己的意识、背叛甚至杀死人类,这不是问题所在。我们认为的威胁,是机器可以很好地完成给到的任务,但人类给出了错误的指令,或者说,不够完备的指令。”
由此,Russell认为这是一个关乎“常识”的问题:机器能否更好地理解人类要什么、不要什么,将是技术演进中的重要环节。
他举了一个简单的例子:如果请朋友帮忙买杯咖啡,朋友不会花上1000块,但是AI可不一定,性价比这种概念人类有,但AI并没有这方面的意识。类似的情况还有可能发生在个人智能助理服务(Personal Digital Assistant)上,如果接收的指令不够完善,它极有可能订错机票、回绝重要客户的会议邀请、删掉孩子学校发来的紧急信息等等。这个技术环节不疏通,带来的后果可能就是“一个智能小助手犯下大错——媒体竞相报道——群众恐慌——一整个产业被扼杀在摇篮里”的悲剧。
缺少价值指引,孩子饿了,机器人保姆可能把猫做成菜
伯克利或将推出个人智能助理产品
Russell教授负责加州大学伯克利分校CHCAI中心,全称Center for Human Compatible Artificial Intelligence,即致力于人机兼容,让机器更好地服务人类。Russell透露,伯克利团队研发的第一款产品可能就是智能助手,他说:“目前智能助理产业还不成气候,也是因为市面上的产品都太不智能了(too stupid),什么都做不了,更别说做什么坏事”。在他看来,变局很快就会出现。取决于自然语言处理技术的进步,乐观来说5年、合理的话10年,我们应该可以预见个人AI助理真正变得“智能”。
Russell教授预计,目前,我们距离“人工智能在很多重要领域超越人类”的那一天还需要5-10个突破(breakthrough),这并不是说那时候AI 就可以写一手好诗、剧本拿下奥斯卡,但它或许可以把一家公司管理得更好,把一个产品设计得更巧妙。
机器如何塑造"价值观"
Value一词,在Russell教授当天的演讲中被反复提及。此处的value其实是人工智能领域的专有名词,指AI会对每一个状态设定一个价值函数,并且以达到value尽量大的状态为目标,进行优化和学习。在他看来,在让AI根据value优化策略的同时,还应该使它学习到的策略符合人类的价值观。
假设这样一个场景:需要一辆无人车把你送到机场,目前虽简单直接,但在现实中,我们常常还面临两种变量——不确定性和取舍。不确定性是指,有好几条路线可以到达,其中一条发了车祸、严重拥堵;取舍是指,你在走出家门的一刻心脏病突发,这时候去医院显然比去机场更重要。
所以,一个好的“价值观”能让机器能在众多变量中做出最合情合理的选择。Russell承认,这即便对于人类来说都很困难,我们在生活中也时常面临两难境地,需要综合比较以科学决策。
有难点,或也意味着有机遇。专访中,他特别提到了两个行业——个人智能助理(Personal Digital Assistant)和自动驾驶技术(Self-driving Car)。个人助理前文已经有所提及,Russell期望的是,这个目前来说消费门槛还颇高的服务,将来能变成99美分、随身携带、人人可以负担得起的普及业务。而无人车,在Russell教授看来,会极大地有利于城市环境和生活水平的提高,“自动驾驶将会使出行变得比现在的共享时代更加便宜,直到完全免费”。
谁是“价值制定者”?
在AI产业化发展中,也出现了让Russell教授担忧的苗头,比如不实信息的传播。他警示,“千百年来,人们的防备心都很弱,倾向于认为自己接收的信息就是真的。然而我们已经越来越多地看到,泛滥的假新闻正在干扰人们的认识、乃至行为。”Russell呼吁,打击不实信息需要多方联手、构筑生态:政府对于故意编造假新闻的行为要进行处罚,科技巨头应该进行防御性AI的研发,除此此外,还有第三种参与的可能性——“价值制定公司”。
制定价值?听起来似乎是个很新的概念。没错,目前这样的公司还不存在。Russell作了个类比,正如现在有些小公司专门为各大公司提供某一项技术外包服务,“价值制定公司”也是类似的原理。它将是一个第三方公司,专门致力于设定、优化价值函数,各大公司可以使用这项服务;而真正到了每个用户手中,这个“标准设定价值”又会再一次个性化,以满足每一个人需求的差异。
AI人才培养:高校、企业角色融合
近年来,科技公司出现回归研究热潮:从产品、销售回归技术,强调基础应用研究的重要性,各互联网巨头更是砸重金组建自己的人工智能实验室(AI Lab)。如何看待企业与高校间的分工与合作?Russell教授表示,这是一个非常值得关注的点。他肯定了一直以来,基础研究的进步、技术的核心概念都孵化自校园;但近几件,大公司正在不断从高校研究院里聘请最好的人才,Google最典型,Facebook、Microsoft也不示弱,中国的BAT也更是如此,“一个转折点已经来临,最好的新技术正在源源不断地从大公司孵化出来”。
传媒AI应用:防御性AI+VR创作
对于传媒技术将如何与AI发展结合,Russell教授从新闻及娱乐两大业务方向做出提议。
新闻的真实性是他首要关注的议题,Russell希望社交媒体巨头们可以研发一款防御性AI,实时监测、追踪假新闻,标记出有疑点的信息,并且做出处理。
其次,影视娱乐行业仍然有巨大的潜力等待被挖掘,若能与人工智能结合,将会出现更加饱满、更加多样化的艺术表达形式。他以虚拟现实技术(VR)举例,目前,VR被大量运用于游戏,在影视方面还停留在拍摄和观看方式的运用,可以说是一种巨大的浪费。Russell畅想,未来,艺术家们从剧本写作、舞美设计、音乐创作的早期阶段就引入VR的概念,让科技从源头上融入艺术。
专访最后,Stuart Russell教授再次申明:机器终究是工具,是为了更好地服务人类。