明敏 发自 凹非寺
量子位 | 公众号 QbitAI
“神秘东方力量”DeepSeek给硅谷带来的影响,还在不断泛起涟漪——
刚刚,DeepSeek-R1跻身大模型竞技榜前三。
以开源、便宜20倍的“身价”与ChatGPT-4o(2024.11.20)并列。
在复杂提示词/风格控制榜单上,R1位列第一。
目前结果来看,它在各个维度上都保持领先。
在衡量
模型编程开发能力
的WebDev分榜上,R1位列第二,与闭源的Claude 3.5 Sonnet相差不到40分。
网友实测体验表示,确实如此,R1在30场battle中只输了4、5次。
另一边,硅谷对DeepSeek的好奇不减。
毕竟,它可是一个
“副业”
。
创始人梁文锋的中文采访更是被翻译成英文,“拿着放大镜”逐字认真阅读。
他提出的观点也被总结成箴言,在互联网上流传。
图灵奖得主LeCun也为DeepSeek做出中肯评价:
它代表了开源的力量。
这意味着,开源模型正在超越专有模型。
值得一提的是,同为开源领域代表的Meta刚刚公布了2025年在AI领域的布局计划:
650亿美元,投算力、投人才
。
有爆料称,Meta内部已经因为DeepSeek感到恐慌。
“他们让OpenAI一次又一次看清自己”
所以,在硅谷视角里,他们更关心DeepSeek的哪些信息?
最首要的莫过于,DeepSeek如何赚钱。
挖到的信息有点出乎意料,或许DeepSeek还没想赚钱的事。
控股DeepSeek的是幻方量化,他们有一批顶级科学家,有充裕的算力资源,DeepSeek其实是一个“副产物”。
在2023年末我就听说他们在做DeepSeek。即使在当时的中国,还没有人把他们当回事。
其次,为何DeepSeek能成功。梁文锋在2023年5月2024年7月接受暗涌的两次采访,也被老外扒出来了。
他们最关心的五个方面分别是:
1、创新第一性原则:
与其他致力于快速商业化的中国AI公司不同,DeepSeek专注于基础的AGI研究和创新。他们认为,中国必须从全球人工智能发展的“搭便车者”转变为“贡献者”。
梁文锋说,创新不完全是商业驱动的,还需要好奇心和创造欲。
2、革命性架构:
DeepSeek V2中采用的新型MLA(多头潜在注意力机制)架构,把显存占用降到了过去最常用的MHA架构的5%-13%,实现了成本大幅降低。它的推理成本仅为Llama 370B的1/7、GPT-4 Turbo的1/70。
这并不是为了挑起一场价格战——他们只是在“成本上稍微有点利润”来定价。这种创新架构继续应用于V3和R1模型中。
3、独特的公司文化和人才战略:
DeepSeek保持着一个完全自下而上的组织结构,为研究人员提供无限的计算资源,优先看创造热情而不是证书。他们的突破性创新来自年轻的本土人才——中国本土的应届毕业生和年轻技术人才,而非海外招聘。
4、致力于开源:
尽管行业开始趋向于闭源模型(OpenAI和Mistral),DeepSeek仍致力于开源,并认为开源对于建立一个强大的技术生态系统至关重要。梁文锋认为,在颠覆性技术面前,闭源形成的护城河是短暂的。
他们的真正价值在于建立一个具备创新能力的组织。
5、底层计算挑战:
尽管拥有足够的资金和技术,DeepSeek也面临来自底层计算的挑战和压力。目前公司还没有新的融资计划。梁文锋认为,面临的主要制约因素不是资金,而是高端算力的使用权,这些芯片对于训练先进AI模型至关重要。