如何下载资料?
微信扫下方二维码加入星球平台
【老会员续费特惠】
今天分享的是:大模型专题:2024年度中文大模型阶段性进展评估
报告共计:59页
《SuperCLUE中文大模型综合性测评基准2024年上半年报告 - 2024年度中文大模型阶段性进展评估》由SuperCLUE团队发布,主要内容如下:
一、国内大模型关键进展及趋势
1. 自ChatGPT发布以来,国内大模型经历准备期、成长期、爆发期三个阶段,技术不断进步。
2. 2024年值得关注的中文大模型全景图展示了众多大模型,涵盖闭源和开源、通用和行业模型。
3. 国内外大模型差距缩小,国内模型发展迅速,Top1模型不断易主。
二、SuperCLUE通用能力测评
1. 介绍了SuperCLUE的测评体系、数据集和方法,涵盖理科、文科、Hard任务等多个维度。
2. 国内外大模型在不同任务上表现各异,GPT-4o在多个方面领先,国内开源模型Qwen2 - 72B - Instruct表现出色。
3. 通过对模型象限、开源榜单、端侧小模型榜单及对战胜率、成熟度指数的分析,展现了不同模型的特点和发展水平。
三、SuperCLUE多模态能力测评
包括AIGVBench视频生成测评、SuperCLUE - Image文生图测评、SuperCLUE - V多模态理解测评等基准,评估多模态模型在不同领域的表现。
四、SuperCLUE专项与行业基准测评
涵盖Math6数学多步推理、代码助手、RAG检索增强生成等专项基准,以及汽车、金融、工业等行业基准,还有琅琊榜竞技场介绍和未来两个月基准发布计划。
五、优秀模型案例介绍
对Qwen2 - 72B - Instruct、SenseChat5.0、山海大模型4.0、AndesGPT、GLM - 4 - 0520等优秀模型进行案例介绍,包括其在SuperCLUE基准中的表现、特点和适合应用场景。
以下为报告节选内容
扫下方二维码加入我们