专栏名称: 罗辑思维
每天一段60秒语音,一篇新角度看世界的文章。关注罗胖,让你每天比别人知道的多一些。
目录
相关文章推荐
51好读  ›  专栏  ›  罗辑思维

AI的胡说八道,为什么比人类骗子“更危险”?

罗辑思维  · 公众号  · 热门自媒体  · 2025-03-19 06:30

正文


随着今年的各类AI进展,有个话题越来越受关注,这就是, AI幻觉 。也就是,由AI无意识制造出的包括谣言在内的一切,对真实世界产生误判的信息。这期间有人把AI当成真人,也有真人被当成AI。

任何人,都千万别觉得AI幻觉跟你没关系。它可能会以一种意想不到的方式波及你。毕竟, AI制造的幻觉多了,就会混淆人们的判断。

因此今天,我们就深入聊聊AI幻觉。我们主要说两方面, 一是问题,二是方案。
作者:达珍
来源:《得到头条》


01

AI幻觉为什么值得特别重视?

按照咱们通常的想象,网上一直有假消息,而且各级有关部门,都会常年地按月、按周,甚至按天发布辟谣公告。这个防范力度相当大,咱们还有必要对AI造谣担惊受怕的吗?
这里要话分两头。 对于从事AI行业的人来说,AI生成的假消息就像毒药。
你看,训练大语言模型需要语料,这个语料其实就是人们在网上留下的各类信息数据。它们就像大语言模型的食物,AI吃得越多就长得越壮实。但是注意,AI能吃的仅限于人类的数据,假如喂AI生成的数据,效果就跟吃毒蘑菇差不多。其中的技术细节咱们就不展开了。
总之, 做AI的人,自己其实是最怕AI谣言淹没互联网的。 就像家长最害怕的不是有人抢劫,而是那个抢劫的和被抢的正好是自己家的亲哥俩。
而对于多数不从事AI行业的普通人来说,AI谣言的可怕之处不在技术层面,而在于和真人骗子相比,AI在胡编乱造这个事上,产能极强,规模潜力极大,且绝对不会心虚。
首先,关于AI瞎编的产能。 前两天我在网上看到一个招聘写手的公告,每篇稿子2000字,全程使用AI写作,内容方向包括近代史、古代史。注意,重点来了,稿费,4元一篇。没错,是4元。我们假设,一个写手总归是不能赔钱干活的吧?他一天的收入总得能养活自己吧?
这就意味着,假如这个4块钱的价格能招到人,而且这个人每天要维持最低生活,一天哪怕只挣个100块,那么他就需要接25篇这样的稿子。而25篇乘以每篇2000字,就是5万字。这还是最保守的估计,一个人随随便便就能用AI一天编写5万字。
假如营销号为了博取流量,铺天盖地地制造这样的内容,那么人们担心的AI垃圾淹没互联网,没准就真在一步步向现实靠近。注意,这可不是说营销号都刻意造假,而是AI内容本身就可能会出错。
根据《自然》杂志的报道,2024年,各类AI在提到参考文献时,出错率在30%—90%之间,而且错误不限于论文标题、第一作者、发表年份等。
去年有媒体报道,OpenAI的自动语音识别系统Whisper,会凭空生成大段的虚假内容。美国有40个医疗系统使用Whisper,其中大约2.6万Whisper经手的病历出现了假信息。目前,OpenAI已经建议用户不要在关键任务中使用这个产品。
注意, AI瞎编的坏处,不仅仅体现在规模大,还在于它从来不会心虚。 媒体人阑夕老师有个评价很贴切,他说,AI造谣的主观恶意或许不及人类,但它的发挥能力却是独当一面。
麻省理工有两位科学家,摩西·霍夫曼和埃雷兹·约耶里一起写过一本书,叫 《隐藏的博弈》 。里面有个观点大概说的是,为什么坏人容易失败?不仅是因为正义的力量很强大,也在于坏人自己会心虚。
换句话说,我们的大脑对于对错是有个判断的,你自己都觉得不对的事,大概率上做起来会缺少能量,会心虚,无法做到绝对的理直气壮。这也是人类造谣的局限所在。
但是, AI就不存在这个心虚感。 一篇胡编乱造的文章,可以做到从头到尾神完气足,精力充沛,且全程押韵。这你受得了吗?
02
面对这三类问题,AI的幻觉率最高
AI为什么会出现幻觉呢?主要有这么几个原因。
首先,数据本身的质量问题。大模型是基于海量数据训练的,这些数据中原本就有垃圾信息。
比如,医学、金融等领域的过时论文,都会导致大模型输出错误结论。而且大模型的语料是有时间节点的,有些大模型的训练数据滞后,对于最新发生的事情就会胡编。
其次,也和大模型的训练方式有关。
大模型的训练是基于打分反馈。也就是大模型输出一个结果,然后有个类似打分器的软件,对这个结果打分。换句话说, 大模型追求的从来都不是准确,而是高分。它本身并不知道什么是准确。
那么,怎么得高分?这就跟写作文一样,即使你对这个话题一知半解,只要你文笔优美地写够800字,分数总不会太低。这也是为什么大模型面对任何问题,不管知道不知道,都必须要像模像样地写出一堆字。
最后,既然大模型追求的是高分,那么它理论上,就存在刻意讨好打分者的可能,它可能会顺着你说。在一些问题上,你怎么引导它,它就可能会基于这个引导来回答你。
那么, 现在市面上流行的大模型,谁的幻觉最严重呢?
美国加州有个公司叫Vectara,经常做这方面的测评。根据他们2025年3月的最新测试,目前,幻觉率最低的是谷歌的Gemini 2.0 Flash,是0.7%。Open AI的GPT-4o的幻觉率是1.5%。而DeepSeek V2.5的幻觉率是2.4%。
而前段时间,清华人工智能学院也发布了一篇报告,题目是《DeepSeek与AI幻觉》。他们发现, 在不同的提问模式下,大模型出现幻觉的概率也不一样。
比如,针对随机生成的提示语,DeepSeek-R1的幻觉率最高,达到3%,然后是DeepSeek-V3和阿里的Qianwen2.5-Max,幻觉率都是2%,而幻觉率最低的是豆包,几乎没有幻觉。
而针对事实性测试,DeepSeek-V3的幻觉率是29.67%,Qianwen2.5-Max的幻觉率是27.67%,DeepSeek-R1的幻觉率是22.33%,豆包的幻觉率接近19%。
同时,研究者发现,面对这么三类问题,AI的幻觉率最高。
第一类是,知识边界模糊的问题,比如预测未来事件;
第二类是,情感驱动的场景,比如安慰性回应;
第三类是,特殊领域相关的问题,比如医疗诊断和金融预测。
03
怎么对抗AI幻觉?
那么,面对这些AI幻觉,我们能够做点什么呢?这就是咱们要说的第二点。
首先,规则建设。针对AI幻觉,很多机构都在试图通过制定规则来解决。
比如,今年2月,美国摩根路易律所发布公告,一旦发现旗下律师使用了AI编造的假信息,就马上解雇。再比如,今年2月,国内期刊《诗刊》发布声明,一旦发现有人用AI投稿,马上列入黑名单。在今年3月的全国两会上,科大讯飞的刘庆峰还作为人大代表提出议案,应该建立安全可信、动态更新的数据库,尽量避免大模型产生幻觉。






请到「今天看啥」查看全文