这些天,很多人都在赞叹deepseek有多么强大,可以按照中考阅卷老师的标准批改孩子的作文、生成类似的易错题等等。
但也有很多人都注意到,对话式人工智能在回答你的问题时,有时会信口开河、瞎编乱造。
比如我问它贝小戎是谁,它会回答说贝小戎是一位财经记者。
《华尔街日报》一位语言学专栏作家自己临时编造了一个词,“argumentative diphthongization”,机器人不仅用了五段话来解释它,还说这个词最早是语言学家Hans Jakobsen在1922年提出来的。其实根本就没有Hans Jakobsen这样一位著名语言学家。
还有一位专栏作家Ben Fritz,他问AI他自己“Ben Fritz娶了谁?”各种聊天机器人都编了一个答案,说他娶了爱荷华一位女性,或某个网球网红。
几天前,我的校友“三叠纪”在微博上说,“想训练deepseek发给我干活,以‘查找光污染light pollution一词的出处’为题测试它的查文献能力。最后发现是异想天开,它不但不给我认真查,还在一本正经编造假文献,包括虚构作者、期刊名称、标题、页码和文摘。被我屡次揭穿以后虚心接受,诚恳道歉,下一条接着编,还给了我一堆无法点击的空网址。最后我自己查到了可靠的说法,给它网址让它认真看(其实网址里已经明确给答案了),结果看完它继续给我编网址里都没提到的。
最后我直接圈出答案让它仔细看,发现也是徒劳……放弃了……一个毫不让人省心的工具,倒是有不少偷奸耍滑的人味。”
为什么对话式人工智能不老老实实说它找不到答案,老实说自己不知道呢?
难道是担心会让公司拉不到投资吗?《华尔街日报》2月11日发的一篇文章解释了这个问题,文章叫“为什么聊天机器人承认自己不知道是那么难的一件事?”
从业者早就发现AI会瞎编乱造,早在2018年就有了一个专门的词称呼这个现象,
就是AI 的幻觉(hallucinations),它们总是自信满满,对所有问题回答得头头是道。AI的幻觉是目前AI研究最热门的领域之一。
另一个详尽一些的解释,Deepsee的译文:“人工智能模型的设计原理是,通过推测下一个最可能出现的词汇或词素来生成答案。
整个过程本质上是一种基于海量训练的高度精准概率推演。
这类系统经过训练后,会以近乎绝对确信的姿态输出最优解,就像考场中面对选择题必须落笔的考生,抑或鸡尾酒会上对答如流的宾客——
即便内心存疑也要展现从容。”“它们产生幻觉的最初原因是,如果你什么都不猜,你就没有任何成功的机会。”
再者,AI模型的生成靠的是让它们吸收和分析大量的信息,而这些信息中没多少是关于“不懂”的,所以这些模型本质上就不会老老实实地表示自己不知道答案。
研究者还要做好平衡,不能让AI经常回答自己不知道,也许在训练它们的数据中其实有正确答案。
一些顶尖的人工智能研究人员表示,人类应该接受AI 的幻觉。
毕竟,人类也有记性不好的时候,而且有研究表明,人类会在不知不觉中填补自己回忆中的空白。前谷歌工程师杰弗里·辛顿说:“我们能减少它的幻觉,但永远无法摆脱它。”
《超能查派》剧照
把AI的胡说八道称为它们的幻觉,是不是有点奇怪?很多专家说,这个词把AI拟人化了,本来“幻觉”只是“不受约束的文本生成”方便的简称,
但它错误地“暗示语言模型具有感知和经验”,更合适的叫法是“被合成的无依据的文本”。