专栏名称: 财联社
财联社系上海报业集团旗下界面(上海)网络科技有限公司产品,定位财经资讯报道,全面聚焦全球证券市场资讯,为投资者提供365天24小时不间断的“快速、准确、权威、专业”金融信息服务。
目录
相关文章推荐
新北方  ·  定了!今年辽宁41所高职院校开展单招 ·  18 小时前  
新北方  ·  注意带伞!本周要有两场雨 ·  昨天  
新北方  ·  多地已实现!这笔钱直接发给职工本人 ·  2 天前  
51好读  ›  专栏  ›  财联社

“价格屠夫”DeepSeek的理想主义:开源、降本与AI普惠

财联社  · 公众号  ·  · 2025-01-28 09:52

正文

一天内登顶中美App Store免费榜、火到两天崩溃两次、Meta开设四个作战室研究,近几日以来,DeepSeek犹如一颗 “东方核弹”,引爆了全球AI圈。
DeepSeek这次引发全球震动的根源之一,就是其最新发布的开源模型DeepSeek-R1。据公司介绍,在数学、代码、自然语言推理等任务上,DeepSeek-R1性能比肩已经能OpenAI o1正式版,并采用MIT许可协议,支持免费商用、任意修改和衍生开发等。
可以说,DeepSeek和它的大模型证明了, 在“大力出奇迹”的Scaling Law之外,AI大模型或许还有另一条制胜之道、一种“DeepSeek Law”:调整改变大模型的基础结构+有效利用有限资源
“一份给全球的开源大礼”
DeepSeek的很多选择都和国内的大模型创业公司不同,比如 坚定选择开源路线,将代码、模型权重和训练日志全部公开 ,DeepSeek-R1自然也不例外。
对于DeepSeek-R1,多位AI行业大佬都不乏溢美之词。
“DeepSeek-R1是我见过 最令人惊叹、最让人印象深刻的突破之一 ,而且它还是开源的,可以说是一份给全球的大礼。”顶级风投之一A16Z创始人Marc Andreesen如此形容这个模型。
“我们生活在这样一个时代,一家非美国公司正在让OpenAI的初衷得以延续,即做 真正开放、为所有人赋能的前沿研究。”英伟达高级研究科学家Jim Fan表示,DeepSeek-R1可能是第一个展示了RL(强化学习)飞轮可发挥作用,且能带来持续增长的OSS(开源软件)项目。
Meta首席科学家杨立昆(Yann Lecun)则表示, 开源模型正在超越专有模型 DeepSeek从开放研究和开源中获益匪浅。他们提出了新的想法,并基于其他人的工作进行创新。由于他们的工作是公开和开源的,所有人都能从中获益。这就是开源研究和开源技术的力量。”
随之而来的,是全球范围内AI技术人员们掀起的“DeepSeek复现热潮”:
比如UC伯克利博士生潘家怡和两位研究人员,就在游戏CountDown中复现了DeepSeek R1-Zero。团队验证了通过RL,3B的基础语言模型也能够自我验证和搜索,成果出色。更重要的是, 这项复现成本仅仅不到30美元
全球最大开源平台HuggingFace团队,也已官宣复刻DeepSeek R1所有pipeline。复刻完成后,所有的训练数据、训练脚本等等,将全部开源。
“在颠覆性的技术面前,闭源形成的护城河是短暂的。即使OpenAI闭源,也无法阻止被别人赶超。”DeepSeek创始人梁文锋曾这样解释选择开源的原因,“开源,发论文,其实并没有失去什么。对于技术人员来说,被follow是很有成就感的事。开源更像一个文化行为,而非商业行为……我们不会闭源。我们认为先有一个强大的技术生态更重要。”
技术降本造就“AI价格屠夫”
谈到DeepSeek大模型,另一个被常常提到的形容词,应该是“物美价廉”。
最新面世的这一DeepSeek-R1,API服务定价为每百万输入tokens 1元(缓存命中)/4元(缓存未命中),每百万输出tokens 16元,输出API价格仅仅只有OpenAI o1的3%。
这不是DeepSeek第一次举起“价格屠刀”。
在去年5月, DeepSeek已经带着开源第二代MoE大模型DeepSeek-V2,顶着“价格屠夫”、“AI界拼多多”的称号一炮而红 ——性能比肩GPT-4,但定价上每百万token输入1元、输出2元(32K上下文),仅是GPT-4的近百分之一水平。
在这之后,字节跳动、百度、腾讯、阿里巴巴等互联网大厂纷纷按捺不住,纷纷官宣大模型降价, 由此打响了国内大模型价格战
低价背后,还是离不开“技术炫技”带来的降本。
一个多月前DeepSeek-V3就曾引发业内高度关注 ,关键原因之一就是 预训练成本之低——这个参数量高达671B的大模型,在预训练阶段仅使用2048块GPU训练了2个月,且只花费557.6万美元。与此同时,DeepSeek-V3相比其他前沿大模型,性能却足以比肩乃至更优
在这背后,DeepSeek-V3采用了用于高效推理的多头潜在注意力(MLA)和用于经济训练的DeepSeekMoE。研发团队证明,多Token预测目标(Multi-Token Prediction,MTP)有利于提高模型性能,可以用于推理加速的推测解码。后训练方面,DeepSeek V3引入了一种创新方法,将推理能力从长思维链模型(DeepSeek R1)中,蒸馏到标准模型上。这在显著提高推理性能的同时,保持了DeepSeek V3的输出风格和长度控制。
AI应用普及前奏






请到「今天看啥」查看全文