专栏名称: 独角兽智库
独角兽智库是一个新兴产业投研平台,搭建新兴领域高端技术与投资机构、传统行业的桥梁,让专业的资本找到优质的企业,实现新兴产业的快速发展。平台提供新兴产业干货报告、专家咨询服务。
目录
相关文章推荐
产业互联网大视野  ·  制造业数字化转型向规模化演进 ·  20 小时前  
研讯社  ·  官宣,2025新政策! ·  昨天  
研讯社  ·  官宣,2025新政策! ·  昨天  
产业互联网大视野  ·  找钢集团王东:发展产业互联网平台牵引行业转型升级 ·  昨天  
中国商报  ·  苹果,大降价! ·  2 天前  
中国商报  ·  苹果,大降价! ·  2 天前  
51好读  ›  专栏  ›  独角兽智库

刷屏!“AI界拼多多”再出手,Deepseek发布新模型,训练成本降低10倍

独角兽智库  · 公众号  · 科技投资  · 2024-12-29 20:29

正文


独角兽智库 产业研究第一智库

独角兽投研情报群招募

独角兽智库发展至今,历时9年,积累了大量资源,也和顶尖投研资源形成了利益共同体,并经过今年近一年的产品测试,小范围会员服务近两年。

十一月精准把握住了固态电池、AI+等板块机会,个股桂发祥、华胜天成、供销大集

现开放体验名额,加微信:itouzi8888,文末有二维码





近日,一家来自中国杭州的公司Deepseek在全球AI界刷屏!




12月26日,Deepseek发布了全新系列模型DeepSeek-v3,一夜之间霸榜开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及 Claude-3.5-Sonnet不分伯仲。


更让海外AI界震惊的是,该模型的训练成本仅600万美元,成本降低10倍,资源运用效率极高。有AI投资机构负责人直言,DeepSeek发布的53页的技术论文是黄金。


据了解,Deepseek的中文名是“深度求索”,为量化巨头幻方量化的子公司。作为一家隐形的AI巨头,幻方拥有1万枚英伟达A100芯片,去年4月幻方宣布成立新组织,集中资源和力量,探索AGI的本质,在一年多时间里进展迅速。


Deepseek再进化


今年5月,Deepseek发布的一款名为DeepSeek V2的开源模型,因其史无前例的性价比,在AI界一跃成名。然而,仅仅过了半年多,Deepseek再度进化。


12月26日,Deepseek称,全新系列模型DeepSeek-v3首个版本上线并同步开源,该模型的多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

 

比如,在百科知识、长文本、代码、数学、中文能力上的表现,超越其他模型,尤其是在数学上,在美国数学竞赛(AIME 2024, MATH)和全国高中数学联赛(CNMO 2024)上,DeepSeek-V3 大幅超过了所有开源闭源模型。


同时,通过算法和工程上的创新,DeepSeek-V3 的生成吐字速度从20 TPS大幅提高至 60 TPS,相比 V2.5 模型实现了3倍的提升。


值得注意的是,Deepseek将API服务价格,调整为每百万输入tokens 0.5元(缓存命中)/ 2元(缓存未命中),每百万输出tokens 8元。


Deepseek还决定为全新模型设置长达45天的优惠价格体验期:即日起至2025年2月8日,DeepSeek-V3的API服务价格仍然是每百万输入tokens 0.1元(缓存命中)/ 1元(缓存未命中),每百万输出tokens 2元。

 

震惊海外AI界


最让海外AI界震惊的是,在性能突出的同时,该模型的训练成本大幅降低。


天使投资人Balaji称,DeepSeek新开源模型仅花费了560万美元进行训练,与GPT 4和Claude 3.5 Sonnet相当。如果属实,成本将降低10倍以上。


Open AI创始成员之一,李飞飞的得意门生Andrej Karpathy表示,“今天,DeepSeek通过一个前沿级LLM的开放权重发布,让这一切看起来轻而易举,而其训练的预算却非常低(2048个GPU运行2个月,总成本600万美元)。”


Andrej Karpathy分析,按照以往经验,这种能力级别的大模型,通常需要接近1.6万张GPU,而目前行业内的模型大多使用约10万张GPU。例如,Llama 3 405B模型消耗了3080万GPU小时,而DeepSeek-V3仅用了280万GPU小时,计算需求减少了11倍。


“这是否意味着前沿LLM不需要大型GPU集群?不是,但你必须确保不浪费你所拥有的资源,这看起来是一个很好的证明,表明在数据和算法方面还有很多工作要做。”Andrej Karpathy感慨。


Lepton AI创始人贾扬清则表示,2019年,他和deepseek团队进行了一次交流,希望向他们推销AI云解决方案。并试图说服他们,“不需要复杂云虚拟化,只需要容器和高效的调度程序;需要一个像NFS这样的通用存储,不需要太花哨但必须速度快”等观点,这些观点对市场上的许多参与者来说都是新颖的,需要一些说服力。


“但deepseek团队友善地告诉我,他们已经这样做很多年了。还让他帮忙,将计算资源免费捐赠给大学研究实验室,且无附加条件。”贾扬清称,从某种程度上来说,他们取得的伟大成就源于多年的专业知识,但这点却被许多人忽视了。


幻方量化CEO陆政哲在微信朋友圈表示,“看到杨清老师这段话,有点小感动。”


前英伟达机器学习专家Bojan Tunguz则表示,所有针对高端半导体的出口禁令实际上可能以可以想象到的“最坏”方式产生了反效果。它们似乎迫使中国研究人员变得比正常情况下更加聪明和资源高效。这似乎也证实了我自己的假设,即我们距离拥有人工智能机器学习部分的最佳算法还有很长的路要走。


“AI界拼多多”


Deepseek的中文名是“深度求索”,为量化巨头幻方量化的子公司。在硅谷,DeepSeek则被称作“来自东方的神秘力量”。


作为一家隐形的AI巨头,幻方拥有1万枚英伟达A100芯片,而国内拥有超过1万枚GPU的企业不超过5家。在中国7家大模型创业公司中,Deepseek是最不显山露水的一家。


去年4月,幻方宣布成立新组织,集中资源和力量,探索AGI的本质,在一年多时间里进展迅速。当时幻方就表示,多年以来,该公司坚持把营收的大部分投入人工智能领域,建设领先的AI硬件基础设施,进行大规模的研究,探索人类未知的奥秘。


“我们相信几乎所有的创新都是从大胆尝试和点滴积累中孕育而来。我们将充分而持续地投入,不做中庸的事,用最长期的眼光去回答最大的问题。”


成立一年后,deepseek发布的一款名为DeepSeek V2的开源模型,提供了一种史无前例的性价比:推理成本被降到每百万token仅1块钱。随后,字节、腾讯、百度、阿里巴巴等纷纷跟进,打响中国大模型价格战。DeepSeek也被迅速冠以“AI界拼多多”之称。


据了解,幻方量化和Deepseek创始人梁文锋是一个极致的80后技术理想主义者,从幻方时代,就在幕后潜心研究技术,在DeepSeek时代,依旧延续着他的低调作风,和所有研究员一样,每天“看论文,写代码,参与小组讨论”。


在接受暗涌的采访中,梁文锋表示,我们降价一方面是因为我们在探索下一代模型的结构中,成本先降下来了,另一方面也觉得无论API,还是AI,都应该是普惠的、人人可以用得起的东西。


“过去很多年,中国公司习惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。”梁文锋表示。

现开放投研情报群体验名额,更多投研情报服务,请往下看



独角兽投研情报会员服务

服务概述

现在的A骨市场,风格切换极快,不论是做赛道成长、风口波段、价值投资、龙头打板、技术短线都处于短暂有效,大多数时间亏损的情况,只有一点持续有价值,那就是快人一步的信息,这种信息不会是财联社的新闻,不是知识星球的调研纪要、更不会是公社的吹票逻辑。

服务主旨

提供各种快人一步的投研信息,让你明明白白知道盘中异动。

情报来源

独角兽智库投研情报团队已经根植在大A各个生态阶层:

1:公募核心圈,提前获取公募看好的大方向和主攻领域。

2:券商分析师圈,深入各大券商核心客户群,提前获取券商主推逻辑。

3:游资核心圈,在游资大佬的小圈子有一席之地,提前获取大资金动向。

4:产业链圈,各个新兴产业技术核心圈子,提前挖掘技术变革推动的A股炒作逻辑。

服务内容

1、大资金抱团动向

2、集合竞价龙头早知道

3、先手小作文

4、券商主推方向及逻辑

5、市场的机会和风向提示

6、个骨和行业避雷

服务方式:

微信群--只有微信群的消息才可以做到第一时间的信息传递。


现开放体验名额(非免费,白嫖勿扰)


加入体验方式(如果您关注短线交易)

请加微信:itouzi8888,备注:体验+姓名+公司+职位

如果您关注基本面,做波段或者价投

请加微信:itouzi5,备注:体验+姓名+公司+职位

群内其他历史记录如下,可自行验证其情报的价值,有投研情报群历史聊天记录的截图,在盘后都会截图并且发在当天文章内,请查看历史文章验证(11月份精选情报)































防止失联,关注备用号