出品丨AI 科技大本营(ID:rgznai100)
北京时间 6 月 27 日,科大讯飞于北京国家会议中心正式发布
讯飞星火大模型V4.0
,以及在医疗、教育、商业等多个领域的人工智能应用。讯飞星火 V4.0 七大核心能力全面升级,不仅在 8 个国际主流测试集中排名第一,领先国内大模型,并在文本生成、语言理解、知识问答、逻辑推理、数学能力等方面实现
对 GPT-4 Turbo 的整体超越
。
讯飞星火 V4.0 在图文识别能力上也是进一步升级,在科研、金融、医疗、司法、办公等场景的应用效果已领先多模态能力更强的 GPT-4o。此外,星火长文本能力也全新升级,并针对长文档知识问答的幻觉问题,业界首发
溯源功能
(后文会重点介绍)。
所谓超越,不止体现在纸面的数据。这次发布会上的现场演示,直接将我的记忆拉回了 5 月份 OpenAI 的
春季发布会
:当时是“ChatGPT 之母” Mira Murati 和两位工程总监共同演示了 GPT-4o 的多模态、语音识别、语音打断、情绪感知等功能,可谓惊技四座。
然而 GPT-4o 上述的这些功能,讯飞星火 V4.0 不仅全都有,演示效果还更加震撼。
比方说,
多语言识别功能
。现场演示在讯飞输入法上进行了多种方言(安徽话、上海话、四川话、粤语等)+汉语/英语/法语混杂的输入。
对比之下,OpenAI 曾经在春季发布会让 Mira 讲意大利语,演示过 GPT-4o 进行意大利语和英语的无缝切换;此外还曾在欧洲科技盛会 VivaTech 上
演示
过法语和英语的切换 —— 讯飞的优势相当明显,不仅同样能做意大利语、英语和法语等外语,且他们在汉语语音识别方面更有经验,并具备外国厂商难以掌握的
中文方言识别
,更适用于广大的中国用户。
按照官方说法,星火语音大模型实际具备了国际领先的
多语种多方言免切换语音识别能力
,可支持
37 个语种、37 种方言“自由对话”。
其中,37 个语种识别效果领先 OpenAI whisper-V3,37 个方言识别效果平均提升 30%。
强干扰/极
复杂环境下的语音识别 & 转写
。官方演示了两个例子,一个是电影《寒战》中郭富城和梁家辉两位主演的“
港普
”吵架,激烈的唇枪舌剑配合难以分辨的口音,同时交错的声音几乎无法用人耳识别,星火却可以做到。
第二个例子则进一步加码难度,在「放背景音乐」+「嘈杂的会场」环境下,让基于星火语音大模型的讯飞听见同时识别三位讯飞研究员的声音,并
对发言人进行标注
。即使在三人混叠说话场景,也能实现 86% 的语音识别准确率。
语音打断和情绪识别
。讯飞输入法和讯飞听见都是大家熟悉的应用,而现场还直接放了一辆奇瑞汽车,演示了最新的
讯飞智能驾舱
。主驾上是中国人,副驾上是外国人,两人可以用不同的语言甚至方言和汽车无缝交互,AI 可以准确切换语言语种,并在每句话的开头识别出说话人是主驾还是副驾。
在过程中,两人演示了许多次“
打断
”的效果 —— 这也是 GPT-4o 每一次演示都会特意体现的功能,是目前顶尖水平的多情感、多模态 AI 的特征之一 —— 能够接受人类交谈中的打断习惯,及时停顿并给出无缝回复,并且保持对上下文的记忆。
此外,结合智能驾舱的心率监测等功能,还可以了解到司机身体的参数,是否有
疲劳驾驶等
异常情况等。
科大讯飞董事长刘庆峰用两个字总结了这些演示:「炸裂」。我们不打算用「遥遥领先」等词来进一步修饰精彩程度 —— 因为
GPT-4o 的语音助手功能没多久之前才官宣
延迟一个月
。前有
新王登基、“世界最强模型” Claude 3.5 Sonnet 虎视眈眈
,
后有
号称“第一个全民开放大模型”、发布之后就能马上用的讯飞星火 V4.0,既然
OpenAI 还未向公众展示其语音的真实实力,就更不用谈领先或落后了。
幻觉已死
我们曾经整理
过
谷歌首席执行官 Sundar Pichai(皮查伊)的一篇采访
,他在面临 Google 前段时间的 AI 搜索风波后,委婉地表示:幻觉问题是大语言模型的“固有缺陷”,这个问题目前尚无解决方案。
针对长文本的幻觉问题,
科大讯飞
今天
给出了一个相当令人眼前一亮的方案:
内容溯源
。让我们复现一遍官方演示的操作,解答这个能力的意义。
将
《
西游记
》的
全本
PDF
发给讯飞星火提问
:
太上老君将悟空置入炼丹炉烧炼,多少天后放出?
回答平平无奇,但为什么答案的中间会有个小旗子呢?我们点进去一看,就会发现所谓的“内容溯源”是为何物:
以往的 AI 模型最大的问题之一便是“黑盒”,我们可以输入数据并得到结果,但完全不懂
内部的运作机制是什么样的,更不可能
检查输出结果的逻辑,或是系统的代码。内容溯源的机制类似于当前 AI 搜索界的“当红炸子鸡” Perplexity,让模型提供的所有答案
像
写论文一样,标注好
明确的引用来源。如此一来,我们至少可以检查 AI 引用的是哪段文字,在出错的时候也有操作的空间。
这一天起,
人类稍微触及了黑盒的冰山一角。
除了内容溯源以外,上述操作还运用到了另一大功能:
个人空间
。
以上是《
哈利波特
》前六部的
英文原版
和我们刚刚测试用的《
西游记
》,我们可以将它们同时选中,
提出问题:孙悟空的法术和哈利波特的咒语有哪些相似之处?
由于给的是《哈利波特》原版,溯源回去自然也是英文:
这只是个人空间的功能之一,它的核心能力是,让用户上传自己的工作、学习、生活、健康等各类资料,形成每个人的专属知识库,再
结合人设,让大模型生成更个性化的内容
。现场演
示里,
刘聪院长便上传了自己女儿写的小作文。在选取符合女儿风格的 AI 人设标签后,星火生成了一篇活泼、可爱更个性化的文章。
此外,
“
个人空间
”不止能同时阅读多种不同语言的文档,还能同时处理
不同格式
的文件。
当他上传了讯飞翻译机的产品海报(PDF 格式)、用户短视频(MP4 格式)、相关录音(MKV 格式)之后,星火也可以根据这些多模态信息生成产品培训文档,还可以对生成的信息进行
多模态溯源
。
星火大模型打通了全系讯飞 C 端软硬件产品生态,比如讯飞智能办公本、智能录音笔的文件可以一键同步到上述的个人空间中,通过数据互通、操作联动,把一篇办公本里的会议记录同步到星火中,就可以让星火进行公文写作,还可以做 PPT,以及生成待办事项等等。讯飞出的这一系列硬件,正式组成了一个“星火组合拳”。
To C 应用升级:革了网络问诊的命
「
讯飞晓医
」是这次的重磅发布之一,当我第一眼看到 AI + 医疗的时候,我还以为这又是 DeepMind AlphaFold 那类“普通人完全看不出有啥关联”的科研发明,但这一次,讯飞直接瞄准了最广泛、最庞大的群体,那就是所有的中国家庭。
点进 App,我们可以定制个性化病历,或是利用图像识别功能直接上传自己的病历本和报告单。更准确的说,这个功能叫“个人数字健康空间”,它能够根据电子病历、检查报告、体检报告等用户个性化资料,在看病前就可以进一步剖析病症原因,用药时给出药物禁忌的个性判断,在检查后联合对比给出数据变化。
更重要的是,还有角色切换功能,让我们把其他家庭成员的健康状况也存一份。
像上图这样,讯飞晓医能知道对应的咨询人平时吃的药物以及病史,且覆盖了 1600 种常见疾病、2800 种常见药品、6000 种常见检查检验,完全能满足广大用户在看病前、用药时、检查后的核心场景健康需求 —— 这里的用户,既可以是懂 AI 的科技发烧友,亦可以是不用手机的
老年人
。只要有一个家庭成员使用晓医,整个家就多了一个在半夜三更也能看病问诊的“赛博医生”。