专栏名称: 云头条
引领科技变革,连接技术与商业
目录
相关文章推荐
哈佛商业评论  ·  从管人到管机器人,务必关注这三类问题 ·  昨天  
指尖新闻沈阳晚报  ·  太突然!暴雷倒闭了!有人已交一年费用 ·  昨天  
指尖新闻沈阳晚报  ·  太突然!暴雷倒闭了!有人已交一年费用 ·  昨天  
archrace  ·  结果 | ov architekti 战胜 ... ·  2 天前  
21世纪商业评论  ·  650亿蒙牛,狂甩包袱 ·  3 天前  
商业洞察  ·  坐在王传福和雷军中间的企业家,有多牛 ·  5 天前  
51好读  ›  专栏  ›  云头条

腾讯混元大模型:第一

云头条  · 公众号  ·  · 2024-09-04 22:27

正文

2024 年 9 月 2 日,中文大模型测评基准 SuperCLUE 发布《中文大模型基准测评 2024 年 8 月报告》,腾讯混元大模型凭借在多个核心任务上的出色表现,总得分居国内大模型第一名,成为榜单中进步最快的模型之一。

据 SuperCLUE 报告,在 11 个能力项的测评中,腾讯混元在其中 8 项核心任务上排名国内第一,综合来看,“腾讯混元整体能力不俗,是一个非常有竞争力的通用大模型。“

SuperCLUE本次测评的是腾讯混元新一代大语言模型预览版(Turbo-Preview),模型采用全新的混合专家模型(MoE)结构,从训练数据、模型架构、训练策略,训练框架,软硬件体系等方面实现了全链路自研,模型一方面在性能上实现大幅提升,另一方面也实现了推理成本的显著下降,有着较大的应用潜力。

作为独立的第三方中文大模型基准测评机构,SuperCLUE 本次 8 月报告聚焦通用能力测评,测评方案由理科、文科和 Hard 三大维度构成。
具体来看,理科能力包括计算、逻辑推理和代码能力;文科任务覆盖知识百科、语言理解、长文本、角色扮演、生成与创作、安全和工具使用七大维度;Hard任务则侧重精确指令遵循以及复杂任务高阶推理。

作为国内成绩最好的模型,腾讯混元在理科、文科均居于第一名。Hard 任务上腾讯混元表现出色,取得 74.33 分,是国内唯一超过 70 分的大模型, 仅与 ChatGPT-4o 有微小差距。
值得注意的是,随着大模型行业的蓬勃发展,以腾讯混元为代表的国产大模型正在加速进化,能力升级速度不断加快。
测评报告数据显示,总体趋势上,国内第一名的大模型在中文领域的通用能力与国外领先模型差距持续缩小,从 2023 年 5 月的 30.12% 的缩小至 2024 年 8 月的 1.29%,总分上仅有 1 分左右的微小差距。
自 2023 年 9 月正式亮相以来,腾讯混元通过在国内率先采用 MoE 结构,模型已扩展为万亿参数规模,总体性能不断升级,除了通用能力和文生文,在文生图、图生文以及视频生成等多模态能力上也有比较突出的表现。在此前发布的中文多模态大模型 SuperCLUE-V 基准榜单中,腾讯混元大模型凭借在多模态理解方面的卓越表现,国内大模型排名第一,稳居卓越领导者象限。

基于领先的模型能力积累,腾讯混元大模型正在积极推进应用落地,让大模型创造更多价值。






请到「今天看啥」查看全文