题图由我厂AI生成
deepseek到底是不是国运级科技成果?
一、啥是国运级?
Deepseek,我们去年5月份就聊过了。
实际上,去年国产大模型的降价潮,就是deepseek发起的。
我们内部,早就上了deepseek v2,v2.5等版本。
那个时候,我们就知道,Deepseek迟早会火,但是像春节期间突然火成这样,还是没有想到的。
Deepseek对我们来说,是核弹级利好,等于是
量身定制
的那种利好。
说到押赛道,你说我们压中一次,你可以说我是瞎蒙的。
我要是连续押中,你就不能说我是蒙的了。
其实deepseek并不是从国内火起来的,而是从国外火起来的。
具体来说,就是美国。
特朗普认证、马斯克认证、OpenAI的山姆.奥特曼认证,各国的技术大拿,比如卡帕西等等认证,登顶
140
多个国家的下载排行榜第一。
这个成绩,就连openai都没拿到过。
《黑神话.悟空》的创始人冯骥说,deepseek可能是国运级的成果。
那么,我们首先要说一说,什么是国运级?
其实日本在70-80年代,靠电子产品、汽车等等,一度要赶超美国。
后面美国人的信息产业开始发力,尤其是互联网蓬勃发展,美股高奏凯歌,让美国普通人也能分享红利,住上了大house,开小汽车,吃牛排的优渥生活,甚至连养老金都安排好了。
日本人连一口汤都没喝上,就落后了。
很多日本普通人找不到工作,在家里做宅男,这样的日子不是一天,而是一过就是30年。
日本的国运开始衰退,这就是所谓的“失去的30年”。
好机会的特征是,一个机会,可以带来后面更多的机会。
信息产业的特点是可以带动各行各业,就像蒸汽机、电力革命一样。
芯片制造、电子产品、计算机、各种工业自动化设备、互联网,甚至军事等等,都可以应用。
这就是国运级。
其实美国这次的目的非常明确,就是押注AI产业,与其它国家拉开5-10年的差距,让美国再次伟大(MAGA)。
美国确实曾经伟大过,当然,这是对美国人来说,那是一个过好日子的鎏金时代。
IBM垄断了大型机,这是第一代巨头。
大型机的利润,让IBM收入极高,福利极好,可以长期不裁员,利润好得不得了。
当时,穿个蓝色西服在IBM上班,简直就是颠扑不破的铁饭碗,在社会上也得到人的尊重。
微软和英特尔形成了wintel联盟,主宰PC市场,曾经长期赚取超额利润。
只是因为移动市场的出现,加上英特尔自己犯错,导致英特尔现在不太行。
微软转型云服务,还是非常赚钱的,还是在PC市场具有主宰地位。
这是第二代巨头。
谷歌、苹果、meta宰治了搜索、移动、社交市场,赚取了巨额利润,肥得流油,富可敌国。
一旦形成主宰地位,甚至都不需要做太多事情,就可以一直赚钱。
这是第三代巨头。
老美的目的,就是培养出第四代巨头,继续占据浪潮之巅。
openai山姆奥特曼的目的,就是通过大模型拉开与其他国家的代差,同时绑定英伟达,变成第四代巨头。
Openai的“星际之门”计划,投资5
000亿
美金给算力基础设施。
微软买核电站、马斯克搞十万张卡,扎克伯格甚至准备搞百万张卡,都是想在这轮科技竞赛中,成为新的
第四代巨头
。
芯片禁令,显卡配额,各种制裁,都是这个目的。
什么国家安全,只是随便找的理由罢了。
只要达到这个目的,老美就像《哪吒2》中的无量仙翁一样,随便分分,就是几千颗仙丹。
其他国家,就分6颗仙丹,是100年,才分6颗。
没有办法,你自己拿不出东西来,只能看着别人赚取垄断利润,收割全球。
这个时候,deepseek来了,是他,是他,犹如踩着风火轮的小哪吒。
二、智能涌现
智能是信息处理的最高形式。
人工智能是源于人类对智能的好奇。
到底机器能不能产生通用智能(AGI)呢?
其实人类经过很长时间的探索,试过很多种方法,有的完全失败了,有的有些效果。
比如计算机,就是这种探索的典型产物,它能做计算,可以算是一种很局限的智能。
直到chatgpt 3.5的出现,人类摸到了这个问题的门槛。
deepseek这次突破的点是什么呢?
就是RL,即强化学习。
Deepseek最新发的基础大模型deepseek v3其实并没有出圈。
因为性能还达不到chatgpt-4o的水平,有一定差距。
真正出圈的是随后发布的deepseek R1这个推理模型。
但是这个推理模型,实际上是deepseek R0这个版本上做出来的。
deepseek R0很不同,非常不同。
要说清楚这个问题,我们要简单介绍几个概念。
放心,完全不懂人工智能,你也能看得懂。
chatgpt-4o这种大语言模型,就是基础大模型,是通过预训练做出来的。
Gpt这个缩写里面,本身就包含的预训练的意思。
Gpt,这三个字母,有人叫它“狗屁通”,因为它有时候会编瞎话,但是看起来似乎又能说得通,所以叫它“狗屁通”,注意这个现象。
其实gpt这三个字母,并不是“狗屁通”的缩写,而是“Generative Pre-trained Transformer”这个词组的首字母缩写。
Generative就是生成式,Pre-trained就是预训练,而Transformer是架构的名字。
那么预训练是什么呢?
预训练,就相当于你去看书,看了很多书,理解了很多概念,懂得了原理,有了自己的体系。
但是这个时候你还不会解题。
那么你就要学几个例题,比如一个题,一个答案这种形式。
你多看几个例题,就知道怎么解题了。
这个过程就是监督微调,即sft。
Openai在做预训练的时候,发现了一个神奇的现象,就是涌现。
如果你给大模型喂多少概念,喂多少题,大模型就只能答这几个概念,只能答这几个题,那这个叫死记硬背,不能叫有智能。
但是涌现不一样,就是说你从来没有给大模型喂过的概念和题,它也能答出来。
这个就产生了原始的智能,就好像是一种直觉。
最典型的涌现例子,就是我们刚才说的大模型会胡编乱造。
这个现象专业术语并不叫“狗屁通”,而是
大模型幻觉
。
大模型幻觉,就是智能的体现,是智能这枚硬币的正反面。
只是对人类来说,它编的不对,叫大模型幻觉,而编的对,你管他叫聪明而已。
但是走到这一步,大模型的智能只是体现在直觉,也叫
快思考
。
人脑也是这样工作的,分为快思考和慢思考。
比如说,你在马路上,一辆车过来,你快速的闪开,这个就是快思考。
你这个时候,就是靠直觉来做判断的,你不会说想几天,再做决定。
快思考,就是一步思考,反应快,但是错误率也高。
那么怎么提高这个模型回答的准确率呢?
有人发现,在预训练模型中,加上一个提示词:
Let’s think step by step。
这个时候,大模型会一步一步的思考,准确率会大幅度提升。
这个就是慢思考,也叫多步思考。
就像你做数学题,你就不是靠直觉来作答,而是先有一个思考,再这一步的基础上,再进一步,直到得到最终答案。
你写长篇小说,也是这样,写个大纲,分几步来写。
用Let’s think step by step这样的提示词,确实能让预训练的大模型进行分步思考,但是这个过程还没有体系化,还不够系统。
三、强化学习的圣杯
如果系统的做,会怎么样呢?
这个时候,人们就想起下棋,下棋,就是典型的多步思考的例子。
说到下棋,现成的例子,震惊全球的alphago,已经没有人类可以下得过它了。
Alphago采用的就是强化学习,可以多步思考。
说到大模型的强化学习,就相当于预训练也做了,例题也看了,然后开始做考试的练习题。
这些题,并不是现成的题库中的,千变万化,你得根据基本概念,举一反三,融汇你所有的知识来做。
每个题的解题思路也未必只是一个,这个本质要你学会一种思维方式,而不是死记硬背。
大模型做的题越多,那么它的能力就越来越强,就“强化”了。
强化学习,还有一个特点,就是不需要人类数据反馈了,它自己做题就能提升。
很多人知道alphago,但是很少人知道alphazero,它是不需要和人类棋手下,它自己跟自己下棋,就会越来越强。
所以,你猜猜deepseek R0为什么叫这个名字?
0就是zero,这是向alphazero致敬。
Openai其实是最早探索了一条路出来,就是openai o1这个模型,有深度思考能力,于去年9月份发布。