专栏名称: AI科技大本营

为AI领域从业者提供人工智能领域热点报道和海量重磅访谈；面向技术人员，提供AI技术领域前沿研究进展和技术成长路线；面向垂直企业，实现行业应用与技术创新的对接。全方位触及人工智能时代，连接AI技术的创造者和使用者。

神秘大招终结幻觉问题！讯飞星火 V4.0 首秀地表最强 AI 语音助手，74 个语种方言“自由对话”

AI科技大本营 · 公众号 · · 2024-06-27 21:03

正文

作者 | 王启隆

责编 | 唐小引

出品丨AI 科技大本营（ID：rgznai100）

北京时间 6 月 27 日，科大讯飞于北京国家会议中心正式发布 讯飞星火大模型V4.0 ，以及在医疗、教育、商业等多个领域的人工智能应用。讯飞星火 V4.0 七大核心能力全面升级，不仅在 8 个国际主流测试集中排名第一，领先国内大模型，并在文本生成、语言理解、知识问答、逻辑推理、数学能力等方面实现 对 GPT-4 Turbo 的整体超越 。

讯飞星火 V4.0 在图文识别能力上也是进一步升级，在科研、金融、医疗、司法、办公等场景的应用效果已领先多模态能力更强的 GPT-4o。此外，星火长文本能力也全新升级，并针对长文档知识问答的幻觉问题，业界首发 溯源功能 （后文会重点介绍）。

所谓超越，不止体现在纸面的数据。这次发布会上的现场演示，直接将我的记忆拉回了 5 月份 OpenAI 的春季发布会：当时是“ChatGPT 之母” Mira Murati 和两位工程总监共同演示了 GPT-4o 的多模态、语音识别、语音打断、情绪感知等功能，可谓惊技四座。

然而 GPT-4o 上述的这些功能，讯飞星火 V4.0 不仅全都有，演示效果还更加震撼。

比方说， 多语言识别功能 。现场演示在讯飞输入法上进行了多种方言（安徽话、上海话、四川话、粤语等）+汉语/英语/法语混杂的输入。

对比之下，OpenAI 曾经在春季发布会让 Mira 讲意大利语，演示过 GPT-4o 进行意大利语和英语的无缝切换；此外还曾在欧洲科技盛会 VivaTech 上演示过法语和英语的切换 —— 讯飞的优势相当明显，不仅同样能做意大利语、英语和法语等外语，且他们在汉语语音识别方面更有经验，并具备外国厂商难以掌握的中文方言识别，更适用于广大的中国用户。

按照官方说法，星火语音大模型实际具备了国际领先的 多语种多方言免切换语音识别能力 ，可支持 37 个语种、37 种方言“自由对话”。其中，37 个语种识别效果领先 OpenAI whisper-V3，37 个方言识别效果平均提升 30%。

强干扰/极 复杂环境下的语音识别 & 转写 。官方演示了两个例子，一个是电影《寒战》中郭富城和梁家辉两位主演的“ 港普 ”吵架，激烈的唇枪舌剑配合难以分辨的口音，同时交错的声音几乎无法用人耳识别，星火却可以做到。

第二个例子则进一步加码难度，在「放背景音乐」+「嘈杂的会场」环境下，让基于星火语音大模型的讯飞听见同时识别三位讯飞研究员的声音，并对发言人进行标注。即使在三人混叠说话场景，也能实现 86% 的语音识别准确率。

语音打断和情绪识别 。讯飞输入法和讯飞听见都是大家熟悉的应用，而现场还直接放了一辆奇瑞汽车，演示了最新的 讯飞智能驾舱 。主驾上是中国人，副驾上是外国人，两人可以用不同的语言甚至方言和汽车无缝交互，AI 可以准确切换语言语种，并在每句话的开头识别出说话人是主驾还是副驾。

在过程中，两人演示了许多次“ 打断 ”的效果 —— 这也是 GPT-4o 每一次演示都会特意体现的功能，是目前顶尖水平的多情感、多模态 AI 的特征之一 —— 能够接受人类交谈中的打断习惯，及时停顿并给出无缝回复，并且保持对上下文的记忆。

此外，结合智能驾舱的心率监测等功能，还可以了解到司机身体的参数，是否有疲劳驾驶等异常情况等。

科大讯飞董事长刘庆峰用两个字总结了这些演示：「炸裂」。我们不打算用「遥遥领先」等词来进一步修饰精彩程度 —— 因为 GPT-4o 的语音助手功能没多久之前才官宣延迟一个月。前有新王登基、“世界最强模型” Claude 3.5 Sonnet 虎视眈眈，后有号称“第一个全民开放大模型”、发布之后就能马上用的讯飞星火 V4.0，既然 OpenAI 还未向公众展示其语音的真实实力，就更不用谈领先或落后了。

幻觉已死

我们曾经整理过谷歌首席执行官 Sundar Pichai（皮查伊）的一篇采访，他在面临 Google 前段时间的 AI 搜索风波后，委婉地表示：幻觉问题是大语言模型的“固有缺陷”，这个问题目前尚无解决方案。

针对长文本的幻觉问题，科大讯飞今天给出了一个相当令人眼前一亮的方案： 内容溯源 。让我们复现一遍官方演示的操作，解答这个能力的意义。将《西游记》的全本 PDF 发给讯飞星火提问：太上老君将悟空置入炼丹炉烧炼，多少天后放出?

回答平平无奇，但为什么答案的中间会有个小旗子呢？我们点进去一看，就会发现所谓的“内容溯源”是为何物：

以往的 AI 模型最大的问题之一便是“黑盒”，我们可以输入数据并得到结果，但完全不懂内部的运作机制是什么样的，更不可能检查输出结果的逻辑，或是系统的代码。内容溯源的机制类似于当前 AI 搜索界的“当红炸子鸡” Perplexity，让模型提供的所有答案像写论文一样，标注好明确的引用来源。如此一来，我们至少可以检查 AI 引用的是哪段文字，在出错的时候也有操作的空间。

这一天起，人类稍微触及了黑盒的冰山一角。

除了内容溯源以外，上述操作还运用到了另一大功能： 个人空间 。

以上是《哈利波特》前六部的 英文原版 和我们刚刚测试用的《西游记》，我们可以将它们同时选中，提出问题：孙悟空的法术和哈利波特的咒语有哪些相似之处？

由于给的是《哈利波特》原版，溯源回去自然也是英文：

这只是个人空间的功能之一，它的核心能力是，让用户上传自己的工作、学习、生活、健康等各类资料，形成每个人的专属知识库，再 结合人设，让大模型生成更个性化的内容 。现场演示里，刘聪院长便上传了自己女儿写的小作文。在选取符合女儿风格的 AI 人设标签后，星火生成了一篇活泼、可爱更个性化的文章。

此外， “ 个人空间 ”不止能同时阅读多种不同语言的文档，还能同时处理 不同格式 的文件。当他上传了讯飞翻译机的产品海报（PDF 格式）、用户短视频（MP4 格式）、相关录音（MKV 格式）之后，星火也可以根据这些多模态信息生成产品培训文档，还可以对生成的信息进行 多模态溯源 。

星火大模型打通了全系讯飞 C 端软硬件产品生态，比如讯飞智能办公本、智能录音笔的文件可以一键同步到上述的个人空间中，通过数据互通、操作联动，把一篇办公本里的会议记录同步到星火中，就可以让星火进行公文写作，还可以做 PPT，以及生成待办事项等等。讯飞出的这一系列硬件，正式组成了一个“星火组合拳”。

To C 应用升级：革了网络问诊的命

「 讯飞晓医 」是这次的重磅发布之一，当我第一眼看到 AI + 医疗的时候，我还以为这又是 DeepMind AlphaFold 那类“普通人完全看不出有啥关联”的科研发明，但这一次，讯飞直接瞄准了最广泛、最庞大的群体，那就是所有的中国家庭。

点进 App，我们可以定制个性化病历，或是利用图像识别功能直接上传自己的病历本和报告单。更准确的说，这个功能叫“个人数字健康空间”，它能够根据电子病历、检查报告、体检报告等用户个性化资料，在看病前就可以进一步剖析病症原因，用药时给出药物禁忌的个性判断，在检查后联合对比给出数据变化。

更重要的是，还有角色切换功能，让我们把其他家庭成员的健康状况也存一份。

像上图这样，讯飞晓医能知道对应的咨询人平时吃的药物以及病史，且覆盖了 1600 种常见疾病、2800 种常见药品、6000 种常见检查检验，完全能满足广大用户在看病前、用药时、检查后的核心场景健康需求 —— 这里的用户，既可以是懂 AI 的科技发烧友，亦可以是不用手机的 老年人 。只要有一个家庭成员使用晓医，整个家就多了一个在半夜三更也能看病问诊的“赛博医生”。

神秘大招终结幻觉问题！讯飞星火 V4.0 首秀地表最强 AI 语音助手，74 个语种方言“自由对话”

正文

请到「今天看啥」查看全文