专栏名称: 研讯社
【以价值之名,行投机之实】研报社是由一线券商研究员合伙创办,每日精炼3篇研报,为您发掘市场热点,分析行业动态,解读个股预期差。
目录
51好读  ›  专栏  ›  研讯社

性能爆表,全面赶超!

研讯社  · 公众号  ·  · 2024-05-10 17:44

正文

为百万财经人士 倾心打造的投研资讯平台



为您解析宏观及政策、研判产业格局及动态,
与君共同见证中国资本市场的壮阔奋进时代!

——研讯社


近期,国内悄悄发布了两个大模型。

一个是 幻方近日发布DeepSeek-V2模型 ,可以说是 目前业内推理性价比最高的模型 。根据DeepSeek官网,V2版本提供了极具竞争力的API价格(用户使用成本/推理成本),分别为1元/百万输入Tokens及2元/百万输出Tokens。之所以成本更低,在于DeepSeek-V2采用了创新架构,保证经济训练和高效推理,分别采用了MLA(多头潜在注意力)和DeepSeekMoE 架构(一种高性能的 MoE 架构)。

据业内评测,DeepSeek-V2新版本的性能接近GPT4等主流大模型,而API价格却远低于竞品,所以说目前DeepSeek-V2性价比很高。

另一个是 阿里近日发布通义千问2.5大模型 。据阿里云智能集团首席技术官称,在中文语境下,文本理解、文本生成、知识问答&生活建议、闲聊&对话,和安全风险等多项能力上赶超GPT-4, 成为地表最强中文大模型 。同时,通义千问1100亿参数开源模型在多个基准测评收获最佳成绩,超越Meta的Llama-3-70B, 成为开源领域最强大模型

一个主打性价比,一个追赶中文性能, 这两个大模型的发布提升了国内大模型的整体竞争力,同时也为国内AI应用的爆发奠定了基础 ,尤其是DeepSeek模型有利于降低 应用 开发者的成本,利好AI应用开发生态。

......

另外 ,近期海外大模型进展也有一个值得注意的趋势:

4月23日,微软推出了大模型Phi-3-mini,可以在多种手机中部署使用该模型。

4月23日,商汤推出了端侧模型SenseChat Lite,采用了端云“联动”的MoE框架,在部分场景中端侧推理占70%,会让推理成本变得更低。

4月24日,苹果推出了大模型OpenELM,是一款专门针对手机等移动设备的模型。苹果使用了1.8万亿tokens的数据进行预训练,表现出超强性能。

终端大模型也在迅速发展,说明科技大厂已经在往端侧发力了,不久将出现更智能的AI手机等智能终端 ,尤其是苹果的加入,使得AI手机的发展更具确定性。









请到「今天看啥」查看全文