专栏名称: 人工智能学派
人工智能学派专注于分享:GPT、AIGC、AI大模型、AI算力、机器人、虚拟人、元宇宙等AI+160个细分行业!
目录
相关文章推荐
51好读  ›  专栏  ›  人工智能学派

大模型专题:2024年度中文大模型阶段性进展评估

人工智能学派  · 公众号  ·  · 2024-08-24 18:16

正文

如何下载资料?

微信扫下方二维码加入星球平台

【老会员续费特惠】

今天分享的是:大模型专题:2024年度中文大模型阶段性进展评估

报告共计:59页

《SuperCLUE中文大模型综合性测评基准2024年上半年报告 - 2024年度中文大模型阶段性进展评估》由SuperCLUE团队发布,主要内容如下:

一、国内大模型关键进展及趋势

1. 自ChatGPT发布以来,国内大模型经历准备期、成长期、爆发期三个阶段,技术不断进步。

2. 2024年值得关注的中文大模型全景图展示了众多大模型,涵盖闭源和开源、通用和行业模型。

3. 国内外大模型差距缩小,国内模型发展迅速,Top1模型不断易主。

二、SuperCLUE通用能力测评

1. 介绍了SuperCLUE的测评体系、数据集和方法,涵盖理科、文科、Hard任务等多个维度。

2. 国内外大模型在不同任务上表现各异,GPT-4o在多个方面领先,国内开源模型Qwen2 - 72B - Instruct表现出色。

3. 通过对模型象限、开源榜单、端侧小模型榜单及对战胜率、成熟度指数的分析,展现了不同模型的特点和发展水平。

三、SuperCLUE多模态能力测评

包括AIGVBench视频生成测评、SuperCLUE - Image文生图测评、SuperCLUE - V多模态理解测评等基准,评估多模态模型在不同领域的表现。

四、SuperCLUE专项与行业基准测评

涵盖Math6数学多步推理、代码助手、RAG检索增强生成等专项基准,以及汽车、金融、工业等行业基准,还有琅琊榜竞技场介绍和未来两个月基准发布计划。

五、优秀模型案例介绍

对Qwen2 - 72B - Instruct、SenseChat5.0、山海大模型4.0、AndesGPT、GLM - 4 - 0520等优秀模型进行案例介绍,包括其在SuperCLUE基准中的表现、特点和适合应用场景。

以下为报告节选内容


扫下方二维码加入我们







请到「今天看啥」查看全文