当前,中国大模型技术发展已跨越初期规模化竞争的"百模大战"阶段,正式步入以核心技术突破与商业价值验证为主导的产业深化期。在行业格局层面,通用基础大模型赛道完成首轮市场整合,核心竞争主体从上百家缩减至约20家,形成由互联网巨头、云服务商及垂直领域创新企业构成的三元竞争体系,标志着行业从资本驱动向技术壁垒构建的战略转型。与2023年相比,2024年大模型多模态能力的全面增强显著扩展了应用边界,这不仅推动传统厂商加大投入,更吸引图片、视频等垂直领域企业跨界参与,形成技术创新与市场竞争的双向加速。
在应用层面,大模型的应用场景已突破对话助手和基础内容创作的传统局限,深度渗透到自动驾驶、医疗影像分析、3D角色生成等专业领域,展现了跨行业的商业价值。为了全面评估大模型在技术实力与应用进展上的表现,弗若斯特沙利文(Frost & Sullivan,简称“沙利文”)及头豹研究院基于大语言模型的评测,新增了对多模态理解与生成能力的评估,旨在从语言能力与多模态能力两个维度,对大模型进行全方位的测评。
沙利文与头豹研究院将持续关注中国大模型领域的最新动态,为行业提供客观、专业的指导与参考。沙利文与头豹研究院联合发布的《2025年中国大模型年度评测市场研究报告》,将深入剖析2024年大模型领域的关键变化与成果,为业界提供富有洞察力的分析与见解。
中国大模型与国际差距加速收敛
:2025年大模型年度评测结果显示,中国头部大模型整体评分已接近国际均线,排名前八的中国大模型平均得分几乎与海外顶尖模型持平。中国大模型在核心能力上已进入全球领先梯队,技术差距正在快速缩小。
大模型已成为“知识百科专家”
:本次评测结果显示,所有参评大模型在常识、科学等知识类问题上的表现几乎达到满分,覆盖从基础常识到高阶科学问题的各类测试。这表明当前大模型在知识掌握方面已无明显短板,能够胜任“知识百科专家”的角色。
深度推理与数学是模型实力的重要分水岭
:评测数据表明,大模型之间在逻辑推理与数学能力上的表现差距最为显著,在0-100的评分体系下,最大分差高达50分。这一现象凸显了推理与数学能力成为了衡量大模型实力的重要分水岭。
中国大模型的性价比远超国际大模型
:本次评测数据显示,中国第一梯队大模型在整体得分超越国际大模型的情况下,其推理与生成成本却远低于海外竞争对手。中国领先大模型每100万token的平均价格仅38.2元,而国际大模型均价高达158.3元,形成近5倍的成本优势,展现出中国大模型在效率与性价比上的显著竞争力。
多模态理解能力整体尚处于发展阶段,识别准确率不达80%
:在多模态理解能力的评测中,所有参评模型在各类图片和类型的整体识别准确率均未超过77%,其中最优模型的表现也未达到85%,显示出当前多模态理解在实际应用中的识别精度仍有较大提升空间。
多模态理解的核心挑战是物体定位
:在多模态理解的九大细分维度中,物体定位维度的识别准确率最低,平均正确率仅为44.3%,物体精确定位依然是当前多模态理解技术的关键瓶颈。
模型的艺术创作能力明显优于商业创作能力
:根据本次多模态生成的评测结果,所有模型在艺术性创作方面的均分为74.3,商业型创作的均分则为69.5,表明模型在满足美感和创造性等需求时表现较好,但在准确度和商业应用场景的适配性方面仍需进一步优化。
多模态生成的主要短板是指令遵循与文字生成
:当前多模态生成面临两大主要问题:首先,模型在遵循指令方面存在频繁偏差,生成的图片与需求之间有一定程度的不符;其次,大部分模型无法准确生成文字。这些问题显著限制了多模态技术在更广泛应用场景中的可行性和发展潜力。
本次评测包括大语言评测与多模态评测两部分,其中,大语言与多模态的理解篇均使用调用模型API的方式进行,多模态生成采用网页端口的服务。
在大语言模型部分,本次评测的中国大模型包括豆包、文心一言、紫东太初、百川智能、讯飞星火、腾讯混元、Kimi.ai、360智脑、智谱AI、零一万物、Minimax、Deepseek、通义千问、商汤日日新、阶跃星辰和书生,这些模型代表了当前中国市场的主流大语言模型。同时,国际方面选取了OpenAI的GPT-4o、GPT-4o-mini、GPT-o1、Gemini 2.0以及Claude 3.5,代表了全球顶尖水平,为中文大模型提供了重要的对比基准。
在多模态评测部分,由于模型和团队的差异,评测流程被进一步细分为多模态理解与多模态生成两篇。在多模态理解篇,入围的企业包括商汤科技、阿里云、腾讯云、阶跃星辰、智谱AI、科大讯飞、字节跳动、面壁智能、Minimax、零一万物和深度求索。而在多模态生成篇,入围的企业则包括商汤科技、阿里云、腾讯云、阶跃星辰、智谱AI、科大讯飞、字节跳动、抖音、快手、360以及天工AI。以上代表了当前中国在多模态领域的领先模型。
本次大模型评测以用户的实际应用体验与价值为核心基准,通过深入分析多种真实使用场景,并建立科学、系统的评估框架,全面客观地衡量各模型在终端应用中的优劣表现。
在大语言模型评测篇,整体评估体系包括数理科学、语言能力、道德责任、行业能力及综合能力五个核心一级维度,并进一步分解为风险信息识别、逻辑推理、类比迁移、角色扮演等多个细致的二级维度,以更精准地揭示模型在不同任务场景中的能力表现及局限性。
在多模态模型评测篇,主要划分为多模态理解与多模态生成两个核心一级维度。其中,多模态理解维度下又具体细化为物体识别、图片逻辑、图片情感、物体定位等九个精细维度;多模态生成维度则针对应用特性进一步区分为商业化创作与艺术型创作两个方向。通过上述细致的维度设计与评估标准,力求全面、深入地展现各多模态模型在理解与生成领域的能力优势与待提升空间。
●
通义千问
阿里云于2025年1月发布的旗舰模型Qwen 2.5-Max,采用MoE混合专家架构,预训练数据规模超过20万亿token,在多项基准测试中性能全面超越DeepSeek-V3、GPT-4o和Llama-3.1-405B。该模型尤其擅长数学推理与代码生成,数学能力超过GPT-4o,开源版本Qwen1.5-110B更在HuggingFace榜单登顶。通过阿里云百炼平台,用户可调用其API,且企业版性价比极高,降价后成本较行业低84%。
●
商汤日日新
商汤日日新Sensenova-5.5-pro融合大模型采用原生融合多模态技术路径,统一大语言模型和多模态大模型。在预训练阶段,通过海量图文交错数据和逆渲染等方法合成融合模态数据,建立图文模态交互桥梁。后训练阶段构建跨模态任务增强训练,包括视频交互、多模态文档分析等,激发模型多模态信息整合理解分析能力,为深度推理和多模态信息结合铺平道路。
●
腾讯混元
腾讯云与2024年10月发布hunyuan-turbo-latest,该版本通过动态更新机制(每两周迭代)持续优化。其核心优势在于通过“探真”算法将幻觉比例降低30%-50%,并通过强化学习提升陷阱识别能力,保障输出安全性。此外,模型支持超长文本生成(优化位置编码)与思维链推理策略,模拟人类分步决策逻辑,适用于复杂任务处理。
感谢您对沙利文的关注与支持。如若想转载我司微信公众号的文章,请:
全球增长咨询公司,弗若斯特沙利文(Frost & Sullivan,简称“沙利文”)融合全球64年的咨询经验,27年来竭诚服务蓬勃发展的中国市场,以全球化的视野,帮助超10,000家客户加速企业成长步伐,助力客户在行业内取得增长、科创、领先的标杆地位,实现融资及上市等资本运作目标。
沙利文深耕全球资本市场及企业咨询服务,通过创新性提出的“全域投资管理 (Total Investment Management, TIM)”为企业提供全方位的投融资及其他各类专业咨询服务,包括投融资CDD、估值服务、技术顾问、财务顾问、ESG、募投可研、债券发行行业顾问、行业顾问、评估服务、奖项服务、行业白皮书、战略及管理咨询、规划咨询、技术洞察等。
沙利文大中华区的投融资业务实现了对中国国民经济的全行业覆盖,包括对新经济、新基建等所有经济热点的高度关注,涵盖数字基础设施、消费电子、双碳新能源、医疗与生命科学、餐饮与新零售、半导体与集成电路、智能家居、汽车与出行、康养服务、食品与饮料、信息通信技术、金融科技、地产与物业、矿业冶炼、美容时尚、大数据与人工智能、物流与供应链、建筑科技与装饰装潢、特种新材料、文化娱乐、企业级服务、跨境电商贸易、基础设施建设、环保节能科技、教育与培训等。
沙利文团队为企业领袖及其管理团队开展投融资顾问咨询服务以来,已帮助近千家公司成功在香港及境外上市,是国内投融资战略咨询领域的领军企业。近10年来,沙利文连年蝉联中国企业赴香港及境外上市专业行业顾问市场份额的领导地位;且近年来,沙利文报告也被广泛引用于业内领先的A股、科创板等上市公司的招股文件、一级和二级市场研究报告及其他资本市场公示文件中。
64年以来,沙利文通过其遍布全球的近50个办公室,利用强大的数据库和专家库、运用丰富的专业知识和咨询工具,帮助大量客户(包括全球1,000强公司、国内外顶级金融机构以及其他各类领先企业等)完成了包括但不限于尽职调查、估值分析和第三方评估工作等工作,达成了战略目标;创立市场地位确认体系,创新性提出“FSBV沙利文品牌价值模型”,已向超1,000家企业提供市场地位确认及品牌估值服务,持续助力大量中国品牌实现国内与出海增长战略。