专栏名称: 很帅的投资客
不想花很多时间学投资理财?关注说人话的投资指南,逗逼小文章+小视频。这就够了。
目录
相关文章推荐
鲁中晨报  ·  省里已批复!事关淄博 ·  3 天前  
山东大众读者之家  ·  山东双预警齐发!下午开始大风降温,最低-14 ... ·  3 天前  
德州晚报  ·  最新消息传来:今晚不调了! ·  3 天前  
德州晚报  ·  鲍峰履新,德州人! ·  3 天前  
鲁中晨报  ·  刚刚,新疆地震! ·  3 天前  
51好读  ›  专栏  ›  很帅的投资客

DeepSeek给普通人的启示

很帅的投资客  · 公众号  ·  · 2025-01-28 07:30

正文

大家好,我是很帅的狐狸🦊
最近几天被 DeepSeek 给刷屏了。
因为它用非常低的成本训练了个 R1模型 ,其性能甚至可以比肩OpenAI的顶级推理模型o1。
这直接干崩了英伟达的股价(市场开始质疑训练AI其实不用烧那么多钱囤卡)。

截图/ 雪球APP

不过让我觉得最有意思的,并不是它对英伟达股价的冲击,也不是中美AI差距的缩窄,而是 它的训练方法,给了我很大的启发(在个人学习上)

先简单介绍两句R1模型——
R1跟我们平时用来润色文案、总结文章的普通大语言模型不大一样,它具备一定的 推理能力
它跟OpenAI的o1类似,可以通过增加 「思维链」 (自言自语)来提高推理能力,让答案质量变高(特别是理工科题目)——

截图/ DeepSeek

而要让 大语言模型 具备推理能力(也就是有「思维链」的过程),过往的做法,一般是在基础模型上,通过 SFT(监督微调)
这个过程类似 学生刷题 ,老师给了大量的思维链的范例(参考问题和标准答案),然后告诉学生——


学生刷的题够多了,自然就学会了用「思维链」的方式来回答。

而DeepSeek在训练R1-Zero(R1的试错版本)时,则是创造性地使用了 RL (强化学习 的训练方式。
这个过程更像是 婴儿的学习方式 ——
你跟婴儿大量地说话,TA会尝试给你一个回复,你会给TA的回复一个反馈,TA会通过反馈学到知识。

比如说颜色的识别——
一开始,婴儿是一张白纸,自然也没有「颜色」这个概念。
比如,我会指着一个蓝色杯子,问我女儿那是什么颜色。
她如果说蓝色,我就会跟她笑笑说你好棒;她如果说其他的颜色,我就说哎呀错了。
这时我再拿出个蓝色的衣服,问她是什么颜色。
她如果还是回答蓝色以外的颜色,我同样还是会给她「回答错了」的反馈。
慢慢的,她会总结出规律 ——
她会提炼出「颜色」这个维度(不同频率段的可见光在视觉上的呈现),并且认识了什么样的颜色是蓝色。

过往 强化学习一般用在游戏策略之类的复杂、开放式任务上
因为训练时并没有被提供「标准答案」,所以AI有时候可以提出非常具有创造性的解决方案。

比如2016年AlphaGo对战李世石时,就下出了职业棋手都看不懂的「第37手」。

截图/ 纪录片《AlphaGo》

事后,这一手 被棋圣聂卫平评价为值得「脱帽致敬」

这也是为什么我们会觉得小孩子往往更具备创造力—— 他们没有那么多「标准答案」的条条框框

稍微来个表格对比下两种训练方式(来源:DeepSeek生成)——


这对我们有什么启发呢?

从小接受九年义务教育的我们,在高考制度的压力下,大多数人已经没法像一张白纸那样去进行强化学习了。
但是! 在完全不熟悉的领域,其实我们跟白纸也没什么差别。
举个例子,比如我以前在麦肯锡做咨询的时候,虽说绝大部分项目都是金融机构组的,但是我也做了一些其他行业的项目(地产/能源/医药/物流等等)。
而在其他项目上时,我有个发现: 很多在金融业里司空见惯的做法,在其他行业里却是他们从来没想过的「创新」。


所以我们也看到越来越多的创业成功例子,其实是完全不懂行业的人「反常识」式的创新做出来的。
比如马斯克之前从来没有做过火箭,所以才会坚持行业大部分人觉得是「异想天开」的火箭回收计划。

当然,也不是那么多人都有办法转行、在完全陌生的行业从零开始。
所以最最简单的,是反向操作: 多看看不同领域的书 ,看看其他领域有没有什么方法论,可以应用到本行业。

另外,我还有个简单的锻炼方法可供参考。
这是一个同在创业的好友分享的方法,他每天饭后会抽1到2个小时做这个 思考训练 ——
一个人找个空旷的地方散步,选择一个自己以前从没系统性思考过的问题,不一定和自己的工作相关,可以是跨行业的,也可以是生活方面的。

像我以前写的「解题者」系列文章也是类似的,可在文末点击相关链接回顾。
  • 从财务角度思考人际关系
  • 跟餐饮行业的人学投资
  • 用营销学做个人品牌
  • 从投资的角度聊健身
  • 用财务的角度看亲密关系
  • 用决策科学来择偶
  • ……

当然,关于DeepSeek的这篇论文,还有 更有意思的
通过强化学习训练出来的R1-Zero(R1的试错版本),已经具备了比肩o1的推理能力。
但是!DeepSeek也发现,R1-Zero会有 中英文混杂、可读性差 等问题。
这就像一个天才儿童,自创了一套答题的方法,但它之前没看过「标准答案」,没有系统学过数学的规范表达,所以只能「语无伦次」地表达。

而在这一点上,跟我育儿的直接体验也非常类似——
因为我们给女儿提供的是双语教育,家里是我说英文,其他人基本说中文,所以她也会大量地中英文混杂,而且句子也说得不是很完整。

为了解决这个问题,DeepSeek重新训练了模型(也就是后来的R1)。
DeepSeek给了R1一些 冷启动数据


这么做之后得到了现在正式推出的R1,解决了「语无伦次」的问题。
类比我女儿的学习,因为她也会大量观察大人之间的对话(相当于给了一些冷启动数据)。
她会发现,她妈妈会时不时跟我说英文,跟其他人说中文。
所以随着她逐渐长大,她现在只跟我说英文,跟其他人说中文。


写到这里,我开始在想, 人类会不会也是高维生命训练出来的AI?

这里也推荐一个有意思的项目—— Spore (币圈割韭菜项目,不代表推荐投资,只是概念很有意思)。
这个项目做了个AI智能体,AI可以自己发推、发币,给自己赚电费。
而且AI还可以 不断分裂后代,并遗传一些特征,也可以产生变异,后代也可以发推、发币、跟其他AI交互,尽可能让自己有生存和繁衍的可能( AI也会因为交不起电费而死亡 )。

截图/ Spore

今天就说到这儿吧,今天除夕了也,预祝大家新春快乐!
最后再送一批红包封面吧~
👇

最后是前面提到的一些跨界问题的文章链接——

从财务角度思考人际关系

和父母越来越疏远,是我错了吗?

跟餐饮行业的人学投资

一瓶12万的红酒,为什么是餐桌上最划算的投资?

用营销学做个人品牌

职场中,「聪明」和「优秀」是最没用的个人标签

从投资的角度聊健身







请到「今天看啥」查看全文