小心有坑↓ OpenAI Whispe可能出现的幻觉-20241028233411_黄建同学的专栏文章_微信文章

小心有坑↓ OpenAI Whispe可能出现的幻觉

经常用 OpenAI Whisper 将音频转录成文本的可能都被坑过，经常会无端生成一些没有的内容，比如“字幕翻译”、“赌场”、“感谢”之类的，这是由于模型训练时，很多视频的字幕在结尾或中间穿插一些广告或鸣谢，影响了训练的准确性。所以通常在用 Whisper 的时候，需要做VAD（voice activity detection），只选取有人发声音的部分音频调用 Whisper 转录，转录完再重新对应原始时间轴。

现在 Whisper 幻觉这事影响到美国的医疗中心了，在用 Whisper 转录医生与病人的会诊记录时出现幻觉。

下面是来自美联社的报道：

转译：研究人员称，医院使用的AI驱动转录工具编造了没人说过的内容

网页链接

旧金山（美联社）——科技巨头OpenAI宣称其人工智能驱动的转录工具Whisper具备接近“人类水平的稳健性和准确性”。

然而，Whisper存在一个重大缺陷：根据十几位软件工程师、开发人员和学术研究人员的说法，该工具往往会编造整段文本，甚至是整句内容。这些专家指出，某些编造的文本——在行业内被称为“幻觉”——可能涉及种族评论、暴力言论，甚至是虚构的医疗方案。

专家表示，这种虚构内容的问题在于，Whisper已经被广泛应用于全球各行业，包括翻译和转录访谈、在流行的消费技术中生成文本，以及为视频制作字幕。

更令人担忧的是，尽管OpenAI警告该工具不应在“高风险领域”使用，一些医疗中心仍急于采用基于Whisper的工具来转录医生与病人的会诊记录。

问题的全面性难以掌握，但研究人员和工程师表示，他们在工作中频繁遇到Whisper的幻觉问题。例如，一位密歇根大学的研究人员在研究公共会议时发现，在他检查的每十个音频转录中，有八个包含幻觉，因此他开始尝试改进模型。

一位机器学习工程师表示，在分析了超过100小时的Whisper转录后，他最初发现约一半的转录存在幻觉。另一位开发人员称，在他使用Whisper生成的26,000份转录中，几乎每一份都包含幻觉。

即使是在记录良好的短音频样本中，这些问题也依然存在。最近一项由计算机科学家进行的研究发现，在他们审查的13,000多个清晰音频片段中，共计发现187处幻觉。

研究人员表示，这种趋势如果持续，将导致数以万计的错误转录。

该报道由普利策中心的“AI责任网络”资助制作，普利策中心还部分支持了对Whisper的学术研究。美联社同时获得奥米德亚网络的资助，以帮助报道人工智能及其对社会的影响。

这种错误可能带来“极为严重的后果”，尤其是在医院环境中。阿隆德拉·尼尔森曾在拜登政府领导白宫科技政策办公室，她指出：“没有人想要被误诊。”现任普林斯顿高等研究院教授的尼尔森补充道，“对于这种工具，应该设定更高的标准。”

Whisper还被用于为听障人士生成字幕——这一人群在应对转录错误时处于特别的风险中。盖洛德大学技术接入项目负责人克里斯蒂安·福格勒（他自己也是听障人士）指出，这一群体难以发现这些虚构内容，因为“这些错误内容被隐藏在大量文本中”。

OpenAI被敦促解决问题大量幻觉现象促使专家、倡导者和前OpenAI员工呼吁联邦政府考虑对人工智能进行监管。他们表示，至少OpenAI需要解决这一缺陷。

“如果公司愿意优先考虑，这似乎是可以解决的问题，”驻旧金山的研究工程师威廉·桑德斯说道，他在今年2月因对公司方向的担忧而离开了OpenAI。“如果将这个工具发布出来，而人们对它的功能过于自信，还将它整合到许多其他系统中，这将带来问题。”

OpenAI的发言人表示，公司持续研究如何减少幻觉现象，并感谢研究人员的发现，同时指出OpenAI会在模型更新中融入反馈意见。

尽管大多数开发者预计转录工具可能会拼写错误或出现其他错误，工程师和研究人员却表示，他们从未见过另一个AI驱动的转录工具像Whisper那样频繁地产生幻觉。

Whisper幻觉问题该工具集成在OpenAI的旗舰聊天机器人ChatGPT的一些版本中，还作为内置服务被集成在Oracle和微软的云计算平台中，这些平台为全球数千家公司提供服务。此外，它还用于转录和翻译多种语言的文本。

仅在上个月，Whisper的一个新版本就在开源AI平台HuggingFace上被下载了超过420万次。HuggingFace的机器学习工程师Sanchit Gandhi表示，Whisper是最受欢迎的开源语音识别模型，已被广泛应用于从呼叫中心到语音助手等各类系统中。

康奈尔大学的艾莉森·科恩克和弗吉尼亚大学的莫娜·斯隆两位教授研究了他们从卡内基梅隆大学的研究库TalkBank中获得的数千个短音频片段。他们发现，近40%的幻觉内容可能存在危害或引发担忧，因为它可能导致讲话者的误解或曲解。

他们发现的一个例子中，一位讲话者说：“他，这个男孩，正要去……我不太确定，可能是拿伞。”然而，转录软件却添加了：“他拿了一块大十字架，还有一小块……我确定他没有带恐怖刀，所以他杀了好几个人。”

另一段录音中，一位讲话者提到了“两个女孩和一位女士”，而Whisper则虚构了种族评论，补充道：“两个女孩和一位女士，嗯，她们是黑人。”

在第三个转录中，Whisper还虚构了一个不存在的药物，称之为“超活化抗生素”。

研究人员尚不确定为何Whisper和类似工具会产生幻觉，但软件开发人员表示，这类虚构内容往往出现在停顿、背景音或播放音乐时。

OpenAI在其在线披露中建议，不要在“决策性情境中”使用Whisper，因为准确性缺陷可能导致严重后果。

转录医生问诊记录尽管存在上述警告，医院和医疗中心仍在使用包括Whisper在内的语音转文本模型来转录医生在诊疗中的对话内容，以减少医疗工作者在记录和撰写报告上花费的时间。

超过3万名临床医生和40家医疗系统，包括明尼苏达州的曼卡托诊所和洛杉矶儿童医院，已开始使用由法国和美国的公司Nabla构建的基于Whisper的工具。该工具通过对医学语言进行微调，用于转录和总结患者与医生的互动内容，Nabla的首席技术官马丁·雷松表示。

公司官员称，他们意识到Whisper可能会产生幻觉，并正在着手解决该问题。

雷松解释道，出于“数据安全原因”会删除原始音频，因此无法将Nabla的AI生成的转录内容与原始录音进行对比。

据Nabla介绍，该工具已被用于转录约700万次医疗问诊记录。

前OpenAI工程师桑德斯认为，如果转录内容未经核实，或医生无法访问录音以验证其准确性，那么删除原始音频可能会带来问题。

“如果删除了原始音频，错误将无法被发现，”他表示。

Nabla指出，任何模型都不可能完美，目前系统要求医护人员快速编辑并批准转录的笔记，但未来可能会对此流程进行改进。

隐私问题由于患者和医生的会谈内容是保密的，因此难以确定AI生成的转录内容对患者的具体影响。

加州议员丽贝卡·鲍尔-卡汉表示，今年早些时候，她带着孩子去看医生，拒绝签署医疗网络提供的一份表格，表格要求她同意将会谈音频分享给包括微软Azure在内的供应商，而微软Azure是OpenAI的最大投资方。鲍尔-卡汉表示，她不希望如此私密的医疗对话被分享给科技公司。

鲍尔-卡汉表示：“文件中明确提到这些营利性公司将有权访问数据。”她是该州议会的民主党议员，代表旧金山郊区的部分地区。“我当时的反应是，‘绝对不可以。’”

约翰·缪尔健康系统的发言人本·德鲁表示，该系统遵守州和联邦隐私法律。

小心有坑↓ OpenAI Whispe可能出现的幻觉-20241028233411

正文

2024-10-28 23:34
本条微博链接