专栏名称: 玩转VSCode
编程开发,业界资讯,以及 VS Code 的热门文章、使用技巧、插件推荐、插件开发攻略等,全部都可以在这里找到。带你玩转 VS Code!
51好读  ›  专栏  ›  玩转VSCode

DeepSeek-R1持续震撼硅谷:跻身竞技榜前三,创始人梁文锋采访被“拿放大镜”看

玩转VSCode  · 公众号  ·  · 2025-01-25 17:24

正文

明敏 发自 凹非寺
量子位 | 公众号 QbitAI

“神秘东方力量”DeepSeek给硅谷带来的影响,还在不断泛起涟漪——

刚刚,DeepSeek-R1跻身大模型竞技榜前三。

以开源、便宜20倍的“身价”与ChatGPT-4o(2024.11.20)并列。

在复杂提示词/风格控制榜单上,R1位列第一。

目前结果来看,它在各个维度上都保持领先。

在衡量 模型编程开发能力 的WebDev分榜上,R1位列第二,与闭源的Claude 3.5 Sonnet相差不到40分。

网友实测体验表示,确实如此,R1在30场battle中只输了4、5次。

另一边,硅谷对DeepSeek的好奇不减。

毕竟,它可是一个 “副业”

创始人梁文锋的中文采访更是被翻译成英文,“拿着放大镜”逐字认真阅读。

他提出的观点也被总结成箴言,在互联网上流传。

真正的差距不是1年或2年,而在于是原创还是模仿。

图灵奖得主LeCun也为DeepSeek做出中肯评价:

它代表了开源的力量。
这意味着,开源模型正在超越专有模型。

值得一提的是,同为开源领域代表的Meta刚刚公布了2025年在AI领域的布局计划: 650亿美元,投算力、投人才

有爆料称,Meta内部已经因为DeepSeek感到恐慌。

“他们让OpenAI一次又一次看清自己”

所以,在硅谷视角里,他们更关心DeepSeek的哪些信息?

最首要的莫过于,DeepSeek如何赚钱。

挖到的信息有点出乎意料,或许DeepSeek还没想赚钱的事。

控股DeepSeek的是幻方量化,他们有一批顶级科学家,有充裕的算力资源,DeepSeek其实是一个“副产物”。

在2023年末我就听说他们在做DeepSeek。即使在当时的中国,还没有人把他们当回事。

其次,为何DeepSeek能成功。梁文锋在2023年5月2024年7月接受暗涌的两次采访,也被老外扒出来了。

他们最关心的五个方面分别是:

1、创新第一性原则: 与其他致力于快速商业化的中国AI公司不同,DeepSeek专注于基础的AGI研究和创新。他们认为,中国必须从全球人工智能发展的“搭便车者”转变为“贡献者”。 梁文锋说,创新不完全是商业驱动的,还需要好奇心和创造欲。

2、革命性架构: DeepSeek V2中采用的新型MLA(多头潜在注意力机制)架构,把显存占用降到了过去最常用的MHA架构的5%-13%,实现了成本大幅降低。它的推理成本仅为Llama 370B的1/7、GPT-4 Turbo的1/70。

这并不是为了挑起一场价格战——他们只是在“成本上稍微有点利润”来定价。这种创新架构继续应用于V3和R1模型中。

3、独特的公司文化和人才战略: DeepSeek保持着一个完全自下而上的组织结构,为研究人员提供无限的计算资源,优先看创造热情而不是证书。他们的突破性创新来自年轻的本土人才——中国本土的应届毕业生和年轻技术人才,而非海外招聘。

4、致力于开源: 尽管行业开始趋向于闭源模型(OpenAI和Mistral),DeepSeek仍致力于开源,并认为开源对于建立一个强大的技术生态系统至关重要。梁文锋认为,在颠覆性技术面前,闭源形成的护城河是短暂的。

他们的真正价值在于建立一个具备创新能力的组织。

5、底层计算挑战: 尽管拥有足够的资金和技术,DeepSeek也面临来自底层计算的挑战和压力。目前公司还没有新的融资计划。梁文锋认为,面临的主要制约因素不是资金,而是高端算力的使用权,这些芯片对于训练先进AI模型至关重要。







请到「今天看啥」查看全文