专栏名称: 黄建同学
数码博主 超话主持人(ChatGPT超话) 头条文章作者 我的学习笔记,关注AI+新能源
目录
相关文章推荐
爱可可-爱生活  ·  几篇论文实现代码:《PRM: ... ·  16 小时前  
爱可可-爱生活  ·  StoryTribe:免费的在线分镜板制作工 ... ·  昨天  
宝玉xp  ·  回复@银湖茶亭:Claude、v0.dev、 ... ·  3 天前  
黄建同学  ·  厉害了。链接这里:网页链接,介绍戳图 ... ·  3 天前  
51好读  ›  专栏  ›  黄建同学

小心有坑↓ OpenAI Whispe可能出现的幻觉-20241028233411

黄建同学  · 微博  · AI  · 2024-10-28 23:34

正文

2024-10-28 23:34

小心有坑↓ OpenAI Whispe可能出现的幻觉
经常用 OpenAI Whisper 将音频转录成文本的可能都被坑过,经常会无端生成一些没有的内容,比如“字幕翻译”、“赌场”、“感谢”之类的,这是由于模型训练时,很多视频的字幕在结尾或中间穿插一些广告或鸣谢,影响了训练的准确性。所以通常在用 Whisper 的时候,需要做VAD(voice activity detection),只选取有人发声音的部分音频调用 Whisper 转录,转录完再重新对应原始时间轴。

现在 Whisper 幻觉这事影响到美国的医疗中心了,在用 Whisper 转录医生与病人的会诊记录时出现幻觉。

下面是来自美联社的报道:

转译:研究人员称,医院使用的AI驱动转录工具编造了没人说过的内容
网页链接

旧金山(美联社)——科技巨头OpenAI宣称其人工智能驱动的转录工具Whisper具备接近“人类水平的稳健性和准确性”。

然而,Whisper存在一个重大缺陷:根据十几位软件工程师、开发人员和学术研究人员的说法,该工具往往会编造整段文本,甚至是整句内容。这些专家指出,某些编造的文本——在行业内被称为“幻觉”——可能涉及种族评论、暴力言论,甚至是虚构的医疗方案。

专家表示,这种虚构内容的问题在于,Whisper已经被广泛应用于全球各行业,包括翻译和转录访谈、在流行的消费技术中生成文本,以及为视频制作字幕。

更令人担忧的是,尽管OpenAI警告该工具不应在“高风险领域”使用,一些医疗中心仍急于采用基于Whisper的工具来转录医生与病人的会诊记录。

问题的全面性难以掌握,但研究人员和工程师表示,他们在工作中频繁遇到Whisper的幻觉问题。例如,一位密歇根大学的研究人员在研究公共会议时发现,在他检查的每十个音频转录中,有八个包含幻觉,因此他开始尝试改进模型。

一位机器学习工程师表示,在分析了超过100小时的Whisper转录后,他最初发现约一半的转录存在幻觉。另一位开发人员称,在他使用Whisper生成的26,000份转录中,几乎每一份都包含幻觉。

即使是在记录良好的短音频样本中,这些问题也依然存在。最近一项由计算机科学家进行的研究发现,在他们审查的13,000多个清晰音频片段中,共计发现187处幻觉。

研究人员表示,这种趋势如果持续,将导致数以万计的错误转录。

该报道由普利策中心的“AI责任网络”资助制作,普利策中心还部分支持了对Whisper的学术研究。美联社同时获得奥米德亚网络的资助,以帮助报道人工智能及其对社会的影响。

这种错误可能带来“极为严重的后果”,尤其是在医院环境中。阿隆德拉·尼尔森曾在拜登政府领导白宫科技政策办公室,她指出:“没有人想要被误诊。”现任普林斯顿高等研究院教授的尼尔森补充道,“对于这种工具,应该设定更高的标准。”

Whisper还被用于为听障人士生成字幕——这一人群在应对转录错误时处于特别的风险中。盖洛德大学技术接入项目负责人克里斯蒂安·福格勒(他自己也是听障人士)指出,这一群体难以发现这些虚构内容,因为“这些错误内容被隐藏在大量文本中”。

OpenAI被敦促解决问题 大量幻觉现象促使专家、倡导者和前OpenAI员工呼吁联邦政府考虑对人工智能进行监管。他们表示,至少OpenAI需要解决这一缺陷。

“如果公司愿意优先考虑,这似乎是可以解决的问题,”驻旧金山的研究工程师威廉·桑德斯说道,他在今年2月因对公司方向的担忧而离开了OpenAI。“如果将这个工具发布出来,而人们对它的功能过于自信,还将它整合到许多其他系统中,这将带来问题。”

OpenAI的发言人表示,公司持续研究如何减少幻觉现象,并感谢研究人员的发现,同时指出OpenAI会在模型更新中融入反馈意见。

尽管大多数开发者预计转录工具可能会拼写错误或出现其他错误,工程师和研究人员却表示,他们从未见过另一个AI驱动的转录工具像Whisper那样频繁地产生幻觉。

Whisper幻觉问题 该工具集成在OpenAI的旗舰聊天机器人ChatGPT的一些版本中,还作为内置服务被集成在Oracle和微软的云计算平台中,这些平台为全球数千家公司提供服务。此外,它还用于转录和翻译多种语言的文本。

仅在上个月,Whisper的一个新版本就在开源AI平台HuggingFace上被下载了超过420万次。HuggingFace的机器学习工程师Sanchit Gandhi表示,Whisper是最受欢迎的开源语音识别模型,已被广泛应用于从呼叫中心到语音助手等各类系统中。

康奈尔大学的艾莉森·科恩克和弗吉尼亚大学的莫娜·斯隆两位教授研究了他们从卡内基梅隆大学的研究库TalkBank中获得的数千个短音频片段。他们发现,近40%的幻觉内容可能存在危害或引发担忧,因为它可能导致讲话者的误解或曲解。

他们发现的一个例子中,一位讲话者说:“他,这个男孩,正要去……我不太确定,可能是拿伞。”然而,转录软件却添加了:“他拿了一块大十字架,还有一小块……我确定他没有带恐怖刀,所以他杀了好几个人。”

另一段录音中,一位讲话者提到了“两个女孩和一位女士”,而Whisper则虚构了种族评论,补充道:“两个女孩和一位女士,嗯,她们是黑人。”

在第三个转录中,Whisper还虚构了一个不存在的药物,称之为“超活化抗生素”。

研究人员尚不确定为何Whisper和类似工具会产生幻觉,但软件开发人员表示,这类虚构内容往往出现在停顿、背景音或播放音乐时。

OpenAI在其在线披露中建议,不要在“决策性情境中”使用Whisper,因为准确性缺陷可能导致严重后果。

转录医生问诊记录 尽管存在上述警告,医院和医疗中心仍在使用包括Whisper在内的语音转文本模型来转录医生在诊疗中的对话内容,以减少医疗工作者在记录和撰写报告上花费的时间。

超过3万名临床医生和40家医疗系统,包括明尼苏达州的曼卡托诊所和洛杉矶儿童医院,已开始使用由法国和美国的公司Nabla构建的基于Whisper的工具。该工具通过对医学语言进行微调,用于转录和总结患者与医生的互动内容,Nabla的首席技术官马丁·雷松表示。

公司官员称,他们意识到Whisper可能会产生幻觉,并正在着手解决该问题。

雷松解释道,出于“数据安全原因”会删除原始音频,因此无法将Nabla的AI生成的转录内容与原始录音进行对比。

据Nabla介绍,该工具已被用于转录约700万次医疗问诊记录。

前OpenAI工程师桑德斯认为,如果转录内容未经核实,或医生无法访问录音以验证其准确性,那么删除原始音频可能会带来问题。

“如果删除了原始音频,错误将无法被发现,”他表示。

Nabla指出,任何模型都不可能完美,目前系统要求医护人员快速编辑并批准转录的笔记,但未来可能会对此流程进行改进。

隐私问题 由于患者和医生的会谈内容是保密的,因此难以确定AI生成的转录内容对患者的具体影响。

加州议员丽贝卡·鲍尔-卡汉表示,今年早些时候,她带着孩子去看医生,拒绝签署医疗网络提供的一份表格,表格要求她同意将会谈音频分享给包括微软Azure在内的供应商,而微软Azure是OpenAI的最大投资方。鲍尔-卡汉表示,她不希望如此私密的医疗对话被分享给科技公司。

鲍尔-卡汉表示:“文件中明确提到这些营利性公司将有权访问数据。”她是该州议会的民主党议员,代表旧金山郊区的部分地区。“我当时的反应是,‘绝对不可以。’”

约翰·缪尔健康系统的发言人本·德鲁表示,该系统遵守州和联邦隐私法律。