DeepSeek-R1持续震撼硅谷：跻身竞技榜前三，创始人梁文锋采访被“拿放大镜”看

玩转VSCode · 公众号 · · 2025-01-25 17:24

正文

“神秘东方力量”DeepSeek给硅谷带来的影响，还在不断泛起涟漪——

刚刚，DeepSeek-R1跻身大模型竞技榜前三。

以开源、便宜20倍的“身价”与ChatGPT-4o（2024.11.20）并列。

在复杂提示词/风格控制榜单上，R1位列第一。

目前结果来看，它在各个维度上都保持领先。

在衡量 模型编程开发能力 的WebDev分榜上，R1位列第二，与闭源的Claude 3.5 Sonnet相差不到40分。

网友实测体验表示，确实如此，R1在30场battle中只输了4、5次。

另一边，硅谷对DeepSeek的好奇不减。

毕竟，它可是一个 “副业” 。

创始人梁文锋的中文采访更是被翻译成英文，“拿着放大镜”逐字认真阅读。

他提出的观点也被总结成箴言，在互联网上流传。

真正的差距不是1年或2年，而在于是原创还是模仿。

图灵奖得主LeCun也为DeepSeek做出中肯评价：

它代表了开源的力量。
这意味着，开源模型正在超越专有模型。

值得一提的是，同为开源领域代表的Meta刚刚公布了2025年在AI领域的布局计划： 650亿美元，投算力、投人才 。

有爆料称，Meta内部已经因为DeepSeek感到恐慌。

所以，在硅谷视角里，他们更关心DeepSeek的哪些信息？

最首要的莫过于，DeepSeek如何赚钱。

挖到的信息有点出乎意料，或许DeepSeek还没想赚钱的事。

控股DeepSeek的是幻方量化，他们有一批顶级科学家，有充裕的算力资源，DeepSeek其实是一个“副产物”。

在2023年末我就听说他们在做DeepSeek。即使在当时的中国，还没有人把他们当回事。

其次，为何DeepSeek能成功。梁文锋在2023年5月2024年7月接受暗涌的两次采访，也被老外扒出来了。

他们最关心的五个方面分别是：

1、创新第一性原则： 与其他致力于快速商业化的中国AI公司不同，DeepSeek专注于基础的AGI研究和创新。他们认为，中国必须从全球人工智能发展的“搭便车者”转变为“贡献者”。 梁文锋说，创新不完全是商业驱动的，还需要好奇心和创造欲。

2、革命性架构： DeepSeek V2中采用的新型MLA（多头潜在注意力机制）架构，把显存占用降到了过去最常用的MHA架构的5%-13%，实现了成本大幅降低。它的推理成本仅为Llama 370B的1/7、GPT-4 Turbo的1/70。

这并不是为了挑起一场价格战——他们只是在“成本上稍微有点利润”来定价。这种创新架构继续应用于V3和R1模型中。

3、独特的公司文化和人才战略： DeepSeek保持着一个完全自下而上的组织结构，为研究人员提供无限的计算资源，优先看创造热情而不是证书。他们的突破性创新来自年轻的本土人才——中国本土的应届毕业生和年轻技术人才，而非海外招聘。

4、致力于开源： 尽管行业开始趋向于闭源模型（OpenAI和Mistral），DeepSeek仍致力于开源，并认为开源对于建立一个强大的技术生态系统至关重要。梁文锋认为，在颠覆性技术面前，闭源形成的护城河是短暂的。

他们的真正价值在于建立一个具备创新能力的组织。

5、底层计算挑战： 尽管拥有足够的资金和技术，DeepSeek也面临来自底层计算的挑战和压力。目前公司还没有新的融资计划。梁文锋认为，面临的主要制约因素不是资金，而是高端算力的使用权，这些芯片对于训练先进AI模型至关重要。