专栏名称: 图解金融
每天中午12点, 一条财经可视化作品. 金融│资本│创业.
目录
相关文章推荐
表舅是养基大户  ·  又被打脸了 ·  14 小时前  
国际金融报  ·  降价没用?星巴克中国交易量连续下滑 ·  17 小时前  
VC/PE/MA金融圈  ·  他,90后,又一个让世界惊叹的中国年轻人! ·  2 天前  
金融早实习  ·  2025春招/实习情报群 ·  4 天前  
国际金融报  ·  特朗普,确认出手! ·  5 天前  
51好读  ›  专栏  ›  图解金融

DeepSeek给普通人的启示

图解金融  · 公众号  · 金融  · 2025-01-28 10:08

正文



来源:很帅的投资客 shuai_investor

作者:很帅的狐狸

大家好,我是很帅的狐狸🦊
最近几天被DeepSeek给刷屏了。
因为它用非常低的成本训练了个R1模型,其性能甚至可以比肩OpenAI的顶级推理模型o1。
这直接干崩了英伟达的股价(市场开始质疑训练AI其实不用烧那么多钱囤卡)。

截图/ 雪球APP

不过让我觉得最有意思的,并不是它对英伟达股价的冲击,也不是中美AI差距的缩窄,而是它的训练方法,给了我很大的启发(在个人学习上)

先简单介绍两句R1模型——
R1跟我们平时用来润色文案、总结文章的普通大语言模型不大一样,它具备一定的推理能力
它跟OpenAI的o1类似,可以通过增加「思维链」(自言自语)来提高推理能力,让答案质量变高(特别是理工科题目)——

截图/ DeepSeek

而要让大语言模型具备推理能力(也就是有「思维链」的过程),过往的做法,一般是在基础模型上,通过SFT(监督微调)
这个过程类似学生刷题,老师给了大量的思维链的范例(参考问题和标准答案),然后告诉学生——


学生刷的题够多了,自然就学会了用「思维链」的方式来回答。

而DeepSeek在训练R1-Zero(R1的试错版本)时,则是创造性地使用了RL(强化学习的训练方式。
这个过程更像是婴儿的学习方式——
你跟婴儿大量地说话,TA会尝试给你一个回复,你会给TA的回复一个反馈,TA会通过反馈学到知识。

比如说颜色的识别——
一开始,婴儿是一张白纸,自然也没有「颜色」这个概念。
比如,我会指着一个蓝色杯子,问我女儿那是什么颜色。
她如果说蓝色,我就会跟她笑笑说你好棒;她如果说其他的颜色,我就说哎呀错了。
这时我再拿出个蓝色的衣服,问她是什么颜色。
她如果还是回答蓝色以外的颜色,我同样还是会给她「回答错了」的反馈。
慢慢的,她会总结出规律——
她会提炼出「颜色」这个维度(不同频率段的可见光在视觉上的呈现),并且认识了什么样的颜色是蓝色。

过往强化学习一般用在游戏策略之类的复杂、开放式任务上
因为训练时并没有被提供「标准答案」,所以AI有时候可以提出非常具有创造性的解决方案。

比如2016年AlphaGo对战李世石时,就下出了职业棋手都看不懂的「第37手」。

截图/ 纪录片《AlphaGo》

事后,这一手被棋圣聂卫平评价为值得「脱帽致敬」

这也是为什么我们会觉得小孩子往往更具备创造力——他们没有那么多「标准答案」的条条框框

稍微来个表格对比下两种训练方式(来源:DeepSeek生成)——


这对我们有什么启发呢?

从小接受九年义务教育的我们,在高考制度的压力下,大多数人已经没法像一张白纸那样去进行强化学习了。
但是!在完全不熟悉的领域,其实我们跟白纸也没什么差别。
举个例子,比如我以前在麦肯锡做咨询的时候,虽说绝大部分项目都是金融机构组的,但是我也做了一些其他行业的项目(地产/能源/医药/物流等等)。
而在其他项目上时,我有个发现:很多在金融业里司空见惯的做法,在其他行业里却是他们从来没想过的「创新」。


所以我们也看到越来越多的创业成功例子,其实是完全不懂行业的人「反常识」式的创新做出来的。
比如马斯克之前从来没有做过火箭,所以才会坚持行业大部分人觉得是「异想天开」的火箭回收计划。

当然,也不是那么多人都有办法转行、在完全陌生的行业从零开始。
所以最最简单的,是反向操作:多看看不同领域的书,看看其他领域有没有什么方法论,可以应用到本行业。

另外,我还有个简单的锻炼方法可供参考。
这是一个同在创业的好友分享的方法,他每天饭后会抽1到2个小时做这个思考训练——
一个人找个空旷的地方散步,选择一个自己以前从没系统性思考过的问题,不一定和自己的工作相关,可以是跨行业的,也可以是生活方面的。

像我以前写的「解题者」系列文章也是类似的,可在文末点击相关链接回顾。
  • 从财务角度思考人际关系
  • 跟餐饮行业的人学投资
  • 用营销学做个人品牌
  • 从投资的角度聊健身
  • 用财务的角度看亲密关系
  • 用决策科学来择偶
  • ……

当然,关于DeepSeek的这篇论文,还有更有意思的
通过强化学习训练出来的R1-Zero(R1的试错版本),已经具备了比肩o1的推理能力。
但是!DeepSeek也发现,R1-Zero会有中英文混杂、可读性差等问题。
这就像一个天才儿童,自创了一套答题的方法,但它之前没看过「标准答案」,没有系统学过数学的规范表达,所以只能「语无伦次」地表达。

而在这一点上,跟我育儿的直接体验也非常类似——
因为我们给女儿提供的是双语教育,家里是我说英文,其他人基本说中文,所以她也会大量地中英文混杂,而且句子也说得不是很完整。

为了解决这个问题,DeepSeek重新训练了模型(也就是后来的R1)。
DeepSeek给了R1一些冷启动数据


这么做之后得到了现在正式推出的R1,解决了「语无伦次」的问题。
类比我女儿的学习,因为她也会大量观察大人之间的对话(相当于给了一些冷启动数据)。
她会发现,她妈妈会时不时跟我说英文,跟其他人说中文。
所以随着她逐渐长大,她现在只跟我说英文,跟其他人说中文。


写到这里,我开始在想,人类会不会也是高维生命训练出来的AI?

这里也推荐一个有意思的项目——Spore(币圈割韭菜项目,不代表推荐投资,只是概念很有意思)。
这个项目做了个AI智能体,AI可以自己发推、发币,给自己赚电费。
而且AI还可以不断分裂后代,并遗传一些特征,也可以产生变异,后代也可以发推、发币、跟其他AI交互,尽可能让自己有生存和繁衍的可能(AI也会因为交不起电费而死亡)。

截图/ Spore

今天就说到这儿吧,今天除夕了也,预祝大家新春快乐!



🤑
「Greed is good.」

「很帅的投资客」的所有内容皆仅以传递知识与金融教育为目的,不构成任何投资建议。一切请以最新文章为准。






请到「今天看啥」查看全文

推荐文章
表舅是养基大户  ·  又被打脸了
14 小时前
国际金融报  ·  降价没用?星巴克中国交易量连续下滑
17 小时前
金融早实习  ·  2025春招/实习情报群
4 天前
国际金融报  ·  特朗普,确认出手!
5 天前
军事纵横  ·  献给你最酷的八一祝福!
7 年前