专栏名称: 中产先生
洞见时代,发现价值,记录生活。
目录
相关文章推荐
梅特涅的信徒  ·  资治通鉴:赤眉军的覆灭 ·  6 天前  
视觉志  ·  七言 | 等春风得意,等时间嘉许 ·  6 天前  
51好读  ›  专栏  ›  中产先生

没那么简单,谁在推动DeepSeek的神话?

中产先生  · 公众号  · 自媒体  · 2025-02-05 07:30

正文


2445个字 阅读时长:8分钟

中产先生 | 洞见时代 发现价值 讲述生活



沸腾与质疑。

春节前意外火起来的DeepSeek成为当下最炙手可热的话题,网上追捧和质疑的声音不断。

假期没心情深入了解,这两天有时间撸了几篇研报,了解了大体情况,发现没那么简单。

一起来聊下。

- 1 -

首先把实际情况说一下。

因为我不是业内人士,我只是整理了研报里专家的观点,尽量做中立客观的表述,如果有不专业的地方,可以在评论区斧正。

其实主要是三个方面:

数据、算法、路线。

1、数据:知识蒸馏

这是目前争议最大的地方。

一方认为知识蒸馏是业内同行的做法,在行业发展初期,大家都是从无到有野蛮生长,无可厚非。

一方则认为知识蒸馏就是走捷径,向高手偷招儿,甚至还有人说的很重,直接说这是抄袭。

客观的来说,知识蒸馏并不是抄袭,而是一种站在巨人肩膀上的做法。

所谓的数据蒸馏有两层含义:

第一层:省去了从原始数据标注、去噪的过程,直接调用成熟大模型的api,输入问题输出结果,蒸馏出更精准更有质量的数据。

第二层,可以对比输出结果的不同,不断地修正自己的大模型算法,比用原始数据训练更有效率,成本也更低。

这是不是抄袭呢?

很难说,没有严格的界定,因为有人说了,OpenAI的原始数据也没有获得授权,而且无视网络协议爬取别人的内容,现在自己的数据被人爬了,在道德上很难自圆其说。

2、算法:工程创新

如果仅仅是靠知识蒸馏,很多小模型公司都在这么做,为什么只有DeepSeek跑出来了,说明还是有与众不同的地方。

这个与众不同的地方就在于:

设计流程和工程实现方面的优化和创新。

下面说几个创新的方面,不做展开,其实大多数人也看不太明白:

混合专家模型、低秩注意力机制、强化学习推理、小模型蒸馏等设计优化,以及FP8混合精度和GPU部署等工程创新。

值得一提的是:

这些底层技术和方向很多都不是DeepSeek的首创,但是DeepSeek通过流程设计和工程创新实现了成本和产出的效率最大化。

也是很了不起的。

这让我想起了中国的新能源汽车,三电系统都不是国内原创的技术,但并不妨碍底层技术之上的创新,不妨碍中国新能源车做到世界第一的位置。

这其实也说明了中美在科技领域的比较优势:

美国适合做0-1,中国适合做1-N,美国的优势在于人才、创新和资本,中国的优势在于基础设施、工程师红利以及最大的市场进行需求迭代。

这种优势本来是应该互补的,而不是制裁和脱钩的。

3、路线:闭源和开源

这块简单说一下:

以OpenAI为代表的闭源路线,从最底层最原始的数据做标注做推理,能力更强,就像学生学习老师,如果只是通过老师的知识来训练,其实比较难超越老师的,但问题是闭源的成本太高了,最主要就是算力成本,因为它很多时候是从头开始算,因为成本高,使用门槛也高,我每个月要付20美元给ChatGPT,但基本上用的不多。

这里埋个伏笔:

算力和英伟达。

后面再说。

开源的成本就没那么高了,特别是开源小模型的免费普及,有利于信息平权,也有利于AI的普及从而加快生态构建。

在AI大模型发展到一定程度,开源是必然的。

这个路线之争,在硅谷早就开始了,大家都苦OpenAI和英伟达久矣,不过真正把AI往开源方向拽了一大把的却是中国的公司。

从上面三个方向基本可以了解:

DeepSeek确实很厉害,但是并没有到颠覆的地步,那么是谁在推动这个神话呢?

下面简单说说。

- 2 -

1、科技博弈

首先很多人想到的就是中美的科技博弈。

国内需要DeepSeek来论证美国的科技制裁无效,美国则需要用DeepSeek来说服国会制裁还不够,以及加大AI投入。

这个逻辑也说得通,不过跟DeepSeek无关,很多人不知道DeepSeek其实是一家民营公司,而且还是去年被人人喊打的股市中搞量化的。

它可能是无意间成为大国博弈的棋子。

2、行业路线

硅谷很多人支持DeepSeek,很多小模型公司也声援它,其实是另有所指:

大家苦OpenAI和英伟达久矣。

OpenAI搞闭源,每次有新的技术都遮遮掩掩挤牙膏,生怕别人超过它,一点都不Open。

英伟达就简单了,死贵,大公司训练一个大模型都吃力,小公司的垂直小模型也不容易,就不能便宜点嘛?

所以,与其说是喜欢DeepSeek,不如说是讨厌OpenAI和英伟达,换句话说就是:

终于有人用低算力成本和高水平模型来替大家出口气了。

笑。

3、资本游戏

其实DeepSeek刚放出消息的时候,我一度认为是为了做空美股的小作文。

大家知道,DeepSeek是做量化的,而美股高位泡沫很大了,特别是以英伟达为代表的七姐妹,泡沫什么时候破,以什么方式破,其实都在预期之中。

做空英伟达拉爆美股泡沫,我看挺合适。

资本有没有这个想法,恐怕不会没有,不过英伟达虽然跌了,但美股还是挺强的,有惊无险。

4、社交媒体

声音最大,但似乎最没什么意义的就是社交媒体了。

从各种沸腾到颠覆,从低幼表述到宏大叙事,从扒创始人信息甚至春节赶到他老家打卡…

已经让人觉得恐怖了。

去年KIMI出来的时候,也是这样,豆包出来的时候,也很疯狂,估计DeepSeek之后再出一个别的,还会照样沸腾。

都是情绪的产物,没有什么实际价值。

这些沸腾的人估计也不会把AI当成生产力工具,都是一阵风,因为自媒体上可以沸腾的东西太多了。

- 3 -
结语

最后:

DeepSeek我还没用过,但有一款国产可以媲美ChatGPT的免费大模型可以用,当然是大好事一件。

大家没必要急着沸腾和质疑,而是应该马上用起来,当成自己的生产力工具,而不是情绪工具。

另外,建议苹果可以跟进谈一下了,集成到苹果里,最好今年就推出AI版手机吧。

就这样。

推荐阅读:

2025年十大悬念和期待。

今年是极为重要的一年,不论是国内经济面临新问题和政策出现大转向,还是国外美国某人归来和地缘经贸的再平衡,都将深刻影响每一个人。

我们梳理了今年十大悬念和期待,看完应该会对今年的宏观大势和微观走向有更清晰的感知和把握。

可以继续阅读:2025年十大悬念和期待

喜欢此内容的人还喜欢

感受到风向变化

10个朋友读过   趋势

事出反常必有妖

500个点赞 局势

大的来了

阅读10万+   深度