性能爆表，全面赶超！

研讯社 · 公众号 · · 2024-05-10 17:44

正文

为百万财经人士 倾心打造的投研资讯平台

为您解析宏观及政策、研判产业格局及动态，
与君共同见证中国资本市场的壮阔奋进时代！

——研讯社

近期，国内悄悄发布了两个大模型。

一个是幻方近日发布DeepSeek-V2模型，可以说是目前业内推理性价比最高的模型。根据DeepSeek官网，V2版本提供了极具竞争力的API价格（用户使用成本/推理成本），分别为1元/百万输入Tokens及2元/百万输出Tokens。之所以成本更低，在于DeepSeek-V2采用了创新架构，保证经济训练和高效推理，分别采用了MLA（多头潜在注意力）和DeepSeekMoE 架构（一种高性能的 MoE 架构）。

据业内评测，DeepSeek-V2新版本的性能接近GPT4等主流大模型，而API价格却远低于竞品，所以说目前DeepSeek-V2性价比很高。

另一个是阿里近日发布通义千问2.5大模型。据阿里云智能集团首席技术官称，在中文语境下，文本理解、文本生成、知识问答&生活建议、闲聊&对话，和安全风险等多项能力上赶超GPT-4，成为地表最强中文大模型。同时，通义千问1100亿参数开源模型在多个基准测评收获最佳成绩，超越Meta的Llama-3-70B，成为开源领域最强大模型。

一个主打性价比，一个追赶中文性能，这两个大模型的发布提升了国内大模型的整体竞争力，同时也为国内AI应用的爆发奠定了基础，尤其是DeepSeek模型有利于降低应用开发者的成本，利好AI应用开发生态。

......

另外，近期海外大模型进展也有一个值得注意的趋势：

4月23日，微软推出了大模型Phi-3-mini，可以在多种手机中部署使用该模型。

4月23日，商汤推出了端侧模型SenseChat Lite，采用了端云“联动”的MoE框架，在部分场景中端侧推理占70%，会让推理成本变得更低。

4月24日，苹果推出了大模型OpenELM，是一款专门针对手机等移动设备的模型。苹果使用了1.8万亿tokens的数据进行预训练，表现出超强性能。

终端大模型也在迅速发展，说明科技大厂已经在往端侧发力了，不久将出现更智能的AI手机等智能终端，尤其是苹果的加入，使得AI手机的发展更具确定性。