加入雷锋网,分享AI时代的信息红利,与智能未来同行。听说牛人都点了这里。
今年春季的时候微软在 Twitter 上发布了一个人工智能聊天机器人 Tay,与我们熟知的微软小冰类似,但在和用户开放对话后不到一天的时间里,它就“变成”了一个热爱希特勒、讥讽女权主义的机器人,最终由于不恰当的种族主义言论引发了激烈争议。
随后微软很快就下线了 Tay,并宣布对 Tay 的算法进行调整,避免聊天机器人再发表任何不恰当的言论。
而就在近日,微软已准备好推出升级版 Tay:Zo。
鉴于 Tay 引发的重大问题,Zo 对敏感的话题一般会很聪明的选择避开,当用户问它政治问题时,Zo 会回复称:“在讨论政治时,人们会发表许多可怕的言论,因此我选择回避政治问题。”
目前,Zo 目前只出现在聊天应用 Kik 的平台上,微软这次对平台的选择很谨慎。不过随着模型的成熟,预计 Zo 将会重新回到 Twitter、Facebook Messenger 和 Snapchat 等所有主流平台。
眼看升级版 Tay 重新回到人们的视线,同时更换了新品牌名 Zo,那么这半年间微软是如何训练 Tay 的呢?雷锋网整理了 Dave Gershgorn 对纳德拉的采访,一起看看微软纳德拉是怎么回答的。
● ● ●
什么时候保护人工智能免受攻击或反向工程变成了一个问题?
纳德拉:这是一个大问题!
我从 Tay 身上得到的最大收获之一就是,我们需要打造出能够抵御恶意攻击的人工智能。
有个有趣的现象是,Tay 在 Twitter上引发巨大争议,但我们在中国没有遇到同样的事情。聊天机器人在中国进行的社交对话是不同的,如果你把它置于美国的语料库当中,结果就不一样了。
当然,Tay 还遇到了集中攻击,这些攻击就像如今开发软件要能经受住 DDOS 攻击,你也要能够经受住语料库攻击——这种攻击试图污染语料库,对 AI 进行误导,从而让 AI 学习模型选中错误的东西。
我们正想方设法应对这些挑战。
我们开发 Tay 是作为一个学习模型的原型产品。
我们也并没有说自己想要推出某个完美无缺的东西,它不像 Windows 10 的发布,它属于那种研究项目,而不是用来赚钱的产品。
尽管有那种种争议,但这个项目确实帮到了我们,也起到了很好的号召作用,让我们更好地为自己所谈论的设计原则打好基础,负起更大的算法责任,思考质量保证意味着什么。以及思考你是基于公开语料库发布产品,还是先发布到一个不同的语料库中并进行观察。
这些都是我们正在学习和改进的技术。
● ● ●
如何打造透明的、道德的、负责任的 AI?
纳德拉:我做的第一件事情,就是在微软内部提出原则,让开发者重视这些问题:
我们打造的机器智能是在帮助人类吗?是在增强人类吗?
我看到微软开发的任何一款人工智能产品时,首先会问:
它增强了什么?做了哪些赋权?用了哪些我们可以在算法上负起责任的训练方法?
这些都要求都可以具体落实。不过,我并不想简单地把这些要求当成业绩指标类。落实这些要求,在于我们的开发人员、设计师以及产品选择对这些问题的敏感性。
一家公司想要提供优秀的用户体验,都要提到设计原则,那么对于优秀的人工智能,它的设计原则是什么呢?
这个问题,我一直在思考。
● ● ●
训练深度神经网络时,负起“算法责任”意味着什么?
纳德拉:以图像识别为例。
如果我们的图像识别 API 本身就存在一些偏见,这有可能是因为缺乏数据,或者是特征选择出了问题,又或者是我们构建的卷积神经网络偏离了设计。我完全认为,我们必须负起责任,就像我们为那些软件漏洞担负责任一样。
人工智能运作的参数最终还是由人类工程师定义的。
并不是说我们想要所有事情时时刻刻都做到完美,但如果有人发现某个地方存在错误,那么我们就会对它进行重新训练。
● ● ●
是否认为存在一种让所有业务都拥有聊天机器人的设计?
纳德拉:我想我们会找到答案的。
我认为有些特定的业务和特定的业务流程,如买保险是非常适合聊天机器人的,这可以通过设计实现。
事实上,监管的要求是当你购买保险时,使用聊天机器人的效果往往要比自己通过移动应用或网站摸索好得多。
● ● ●
如何才能让聊天机器人说的话听上去更智能?
纳德拉:这个问题可以分为多个层次,教导计算机学会人类语言是我们的终极任务之一。
这些任务需要一步一步地来做,在 AI 学会自由运用人类语言之前,首先要让它理解你来我往的对话。只不过实现语言生成是一个通用人工智能(AGI)问题,它并不是一个应用人工智能问题。
研究者必须掌握一种通用人工智能和通用学习模型,它要能充分理解人类知识和词汇中的所有语义。
只要遇到歧义和错误,就需要思考如何让人工介入进行调校,以及如何升级到由人来做出选择。在我看来,这就是 AI 产品最讲究的地方。
如果有一定比例会出现歧义和错误,那研究人员必须要有处理异常情况的能力,可是这首先要能够检测出异常的地方来。幸运的是,在人工智能中,你拥有信心和概率分布的支持。这种情况下必须利用所有这一切让人类介入进来。
以客户支持为例,我们也承认虚拟助理并不能够回答所有问题。
此类任务可能需要涉及到让真人客服参与进行处理,这时候聊天机器人就从主角变成了配角。
客服代表回答问题,然后虚拟助理藉由强化学习从中汲取经验教训。
所以,那样的过程将会帮助我们做得越来越好。但是,要做到这一点,我们需要在通用学习技术上取得突破性进展。