专栏名称: AI科技大本营
为AI领域从业者提供人工智能领域热点报道和海量重磅访谈;面向技术人员,提供AI技术领域前沿研究进展和技术成长路线;面向垂直企业,实现行业应用与技术创新的对接。全方位触及人工智能时代,连接AI技术的创造者和使用者。
目录
相关文章推荐
贝壳社  ·  DeepSeek掀起狂潮,AI+制药这盘棋该咋下? ·  3 天前  
德大器械注册与临床  ·  【器械临床一起学】知情同意书的设计规范及知情 ... ·  3 天前  
第十一诊室  ·  这样的化妆品早就过期了,很多姑娘还在用! ·  3 天前  
51好读  ›  专栏  ›  AI科技大本营

神秘大招终结幻觉问题!讯飞星火 V4.0 首秀地表最强 AI 语音助手,74 个语种方言“自由对话”

AI科技大本营  · 公众号  ·  · 2024-06-27 21:03

正文

作者 | 王启隆
责编 | 唐小引
出品丨AI 科技大本营(ID:rgznai100)

北京时间 6 月 27 日,科大讯飞于北京国家会议中心正式发布 讯飞星火大模型V4.0 ,以及在医疗、教育、商业等多个领域的人工智能应用。讯飞星火 V4.0 七大核心能力全面升级,不仅在 8 个国际主流测试集中排名第一,领先国内大模型,并在文本生成、语言理解、知识问答、逻辑推理、数学能力等方面实现 对 GPT-4 Turbo 的整体超越

讯飞星火 V4.0 在图文识别能力上也是进一步升级,在科研、金融、医疗、司法、办公等场景的应用效果已领先多模态能力更强的 GPT-4o。此外,星火长文本能力也全新升级,并针对长文档知识问答的幻觉问题,业界首发 溯源功能 (后文会重点介绍)。

所谓超越,不止体现在纸面的数据。这次发布会上的现场演示,直接将我的记忆拉回了 5 月份 OpenAI 的 春季发布会 :当时是“ChatGPT 之母” Mira Murati 和两位工程总监共同演示了 GPT-4o 的多模态、语音识别、语音打断、情绪感知等功能,可谓惊技四座。

然而 GPT-4o 上述的这些功能,讯飞星火 V4.0 不仅全都有,演示效果还更加震撼。

比方说, 多语言识别功能 。现场演示在讯飞输入法上进行了多种方言(安徽话、上海话、四川话、粤语等)+汉语/英语/法语混杂的输入。

对比之下,OpenAI 曾经在春季发布会让 Mira 讲意大利语,演示过 GPT-4o 进行意大利语和英语的无缝切换;此外还曾在欧洲科技盛会 VivaTech 上 演示 过法语和英语的切换 —— 讯飞的优势相当明显,不仅同样能做意大利语、英语和法语等外语,且他们在汉语语音识别方面更有经验,并具备外国厂商难以掌握的 中文方言识别 ,更适用于广大的中国用户。

按照官方说法,星火语音大模型实际具备了国际领先的 多语种多方言免切换语音识别能力 ,可支持 37 个语种、37 种方言“自由对话”。 其中,37 个语种识别效果领先 OpenAI whisper-V3,37 个方言识别效果平均提升 30%。

强干扰/极 复杂环境下的语音识别 & 转写 。官方演示了两个例子,一个是电影《寒战》中郭富城和梁家辉两位主演的“ 港普 ”吵架,激烈的唇枪舌剑配合难以分辨的口音,同时交错的声音几乎无法用人耳识别,星火却可以做到。

第二个例子则进一步加码难度,在「放背景音乐」+「嘈杂的会场」环境下,让基于星火语音大模型的讯飞听见同时识别三位讯飞研究员的声音,并 对发言人进行标注 。即使在三人混叠说话场景,也能实现 86% 的语音识别准确率。

语音打断和情绪识别 。讯飞输入法和讯飞听见都是大家熟悉的应用,而现场还直接放了一辆奇瑞汽车,演示了最新的 讯飞智能驾舱 。主驾上是中国人,副驾上是外国人,两人可以用不同的语言甚至方言和汽车无缝交互,AI 可以准确切换语言语种,并在每句话的开头识别出说话人是主驾还是副驾。

在过程中,两人演示了许多次“ 打断 ”的效果 —— 这也是 GPT-4o 每一次演示都会特意体现的功能,是目前顶尖水平的多情感、多模态 AI 的特征之一 —— 能够接受人类交谈中的打断习惯,及时停顿并给出无缝回复,并且保持对上下文的记忆。

此外,结合智能驾舱的心率监测等功能,还可以了解到司机身体的参数,是否有 疲劳驾驶等 异常情况等。

科大讯飞董事长刘庆峰用两个字总结了这些演示:「炸裂」。我们不打算用「遥遥领先」等词来进一步修饰精彩程度 —— 因为 GPT-4o 的语音助手功能没多久之前才官宣 延迟一个月 。前有 新王登基、“世界最强模型” Claude 3.5 Sonnet 虎视眈眈 后有 号称“第一个全民开放大模型”、发布之后就能马上用的讯飞星火 V4.0,既然 OpenAI 还未向公众展示其语音的真实实力,就更不用谈领先或落后了。


幻觉已死

我们曾经整理 谷歌首席执行官 Sundar Pichai(皮查伊)的一篇采访 ,他在面临 Google 前段时间的 AI 搜索风波后,委婉地表示:幻觉问题是大语言模型的“固有缺陷”,这个问题目前尚无解决方案。

针对长文本的幻觉问题, 科大讯飞 今天 给出了一个相当令人眼前一亮的方案: 内容溯源 。让我们复现一遍官方演示的操作,解答这个能力的意义。 西游记 》的 全本 PDF 发给讯飞星火提问 太上老君将悟空置入炼丹炉烧炼,多少天后放出?

回答平平无奇,但为什么答案的中间会有个小旗子呢?我们点进去一看,就会发现所谓的“内容溯源”是为何物:

以往的 AI 模型最大的问题之一便是“黑盒”,我们可以输入数据并得到结果,但完全不懂 内部的运作机制是什么样的,更不可能 检查输出结果的逻辑,或是系统的代码。内容溯源的机制类似于当前 AI 搜索界的“当红炸子鸡” Perplexity,让模型提供的所有答案 写论文一样,标注好 明确的引用来源。如此一来,我们至少可以检查 AI 引用的是哪段文字,在出错的时候也有操作的空间。

这一天起, 人类稍微触及了黑盒的冰山一角。

除了内容溯源以外,上述操作还运用到了另一大功能: 个人空间

以上是《 哈利波特 》前六部的 英文原版 和我们刚刚测试用的《 西游记 》,我们可以将它们同时选中, 提出问题:孙悟空的法术和哈利波特的咒语有哪些相似之处?

由于给的是《哈利波特》原版,溯源回去自然也是英文:

这只是个人空间的功能之一,它的核心能力是,让用户上传自己的工作、学习、生活、健康等各类资料,形成每个人的专属知识库,再 结合人设,让大模型生成更个性化的内容 。现场演 示里, 刘聪院长便上传了自己女儿写的小作文。在选取符合女儿风格的 AI 人设标签后,星火生成了一篇活泼、可爱更个性化的文章。

此外, 个人空间 ”不止能同时阅读多种不同语言的文档,还能同时处理 不同格式 的文件。 当他上传了讯飞翻译机的产品海报(PDF 格式)、用户短视频(MP4 格式)、相关录音(MKV 格式)之后,星火也可以根据这些多模态信息生成产品培训文档,还可以对生成的信息进行 多模态溯源

星火大模型打通了全系讯飞 C 端软硬件产品生态,比如讯飞智能办公本、智能录音笔的文件可以一键同步到上述的个人空间中,通过数据互通、操作联动,把一篇办公本里的会议记录同步到星火中,就可以让星火进行公文写作,还可以做 PPT,以及生成待办事项等等。讯飞出的这一系列硬件,正式组成了一个“星火组合拳”。


To C 应用升级:革了网络问诊的命

讯飞晓医 」是这次的重磅发布之一,当我第一眼看到 AI + 医疗的时候,我还以为这又是 DeepMind AlphaFold 那类“普通人完全看不出有啥关联”的科研发明,但这一次,讯飞直接瞄准了最广泛、最庞大的群体,那就是所有的中国家庭。

点进 App,我们可以定制个性化病历,或是利用图像识别功能直接上传自己的病历本和报告单。更准确的说,这个功能叫“个人数字健康空间”,它能够根据电子病历、检查报告、体检报告等用户个性化资料,在看病前就可以进一步剖析病症原因,用药时给出药物禁忌的个性判断,在检查后联合对比给出数据变化。

更重要的是,还有角色切换功能,让我们把其他家庭成员的健康状况也存一份。

像上图这样,讯飞晓医能知道对应的咨询人平时吃的药物以及病史,且覆盖了 1600 种常见疾病、2800 种常见药品、6000 种常见检查检验,完全能满足广大用户在看病前、用药时、检查后的核心场景健康需求 —— 这里的用户,既可以是懂 AI 的科技发烧友,亦可以是不用手机的 老年人 。只要有一个家庭成员使用晓医,整个家就多了一个在半夜三更也能看病问诊的“赛博医生”。







请到「今天看啥」查看全文