专栏名称: 图解金融

每天中午12点, 一条财经可视化作品. 金融│资本│创业.

DeepSeek给普通人的启示

图解金融 · 公众号 · 金融 · 2025-01-28 10:08

正文

来源：很帅的投资客 shuai_investor

作者：很帅的狐狸

大家好，我是很帅的狐狸🦊

最近几天被DeepSeek给刷屏了。

因为它用非常低的成本训练了个R1模型，其性能甚至可以比肩OpenAI的顶级推理模型o1。

这直接干崩了英伟达的股价（市场开始质疑训练AI其实不用烧那么多钱囤卡）。

截图/ 雪球APP

不过让我觉得最有意思的，并不是它对英伟达股价的冲击，也不是中美AI差距的缩窄，而是它的训练方法，给了我很大的启发（在个人学习上）。

先简单介绍两句R1模型——

R1跟我们平时用来润色文案、总结文章的普通大语言模型不大一样，它具备一定的推理能力。

它跟OpenAI的o1类似，可以通过增加「思维链」（自言自语）来提高推理能力，让答案质量变高（特别是理工科题目）——

截图/ DeepSeek

而要让大语言模型具备推理能力（也就是有「思维链」的过程），过往的做法，一般是在基础模型上，通过SFT（监督微调）。

这个过程类似学生刷题，老师给了大量的思维链的范例（参考问题和标准答案），然后告诉学生——

学生刷的题够多了，自然就学会了用「思维链」的方式来回答。

而DeepSeek在训练R1-Zero（R1的试错版本）时，则是创造性地使用了RL（强化学习）的训练方式。

这个过程更像是婴儿的学习方式——

你跟婴儿大量地说话，TA会尝试给你一个回复，你会给TA的回复一个反馈，TA会通过反馈学到知识。

比如说颜色的识别——

一开始，婴儿是一张白纸，自然也没有「颜色」这个概念。

比如，我会指着一个蓝色杯子，问我女儿那是什么颜色。

她如果说蓝色，我就会跟她笑笑说你好棒；她如果说其他的颜色，我就说哎呀错了。

这时我再拿出个蓝色的衣服，问她是什么颜色。

她如果还是回答蓝色以外的颜色，我同样还是会给她「回答错了」的反馈。

慢慢的，她会总结出规律——

她会提炼出「颜色」这个维度（不同频率段的可见光在视觉上的呈现），并且认识了什么样的颜色是蓝色。

过往强化学习一般用在游戏策略之类的复杂、开放式任务上。

因为训练时并没有被提供「标准答案」，所以AI有时候可以提出非常具有创造性的解决方案。

比如2016年AlphaGo对战李世石时，就下出了职业棋手都看不懂的「第37手」。

截图/ 纪录片《AlphaGo》

事后，这一手被棋圣聂卫平评价为值得「脱帽致敬」。

这也是为什么我们会觉得小孩子往往更具备创造力——他们没有那么多「标准答案」的条条框框。

稍微来个表格对比下两种训练方式（来源：DeepSeek生成）——

这对我们有什么启发呢？

从小接受九年义务教育的我们，在高考制度的压力下，大多数人已经没法像一张白纸那样去进行强化学习了。

但是！在完全不熟悉的领域，其实我们跟白纸也没什么差别。

举个例子，比如我以前在麦肯锡做咨询的时候，虽说绝大部分项目都是金融机构组的，但是我也做了一些其他行业的项目（地产/能源/医药/物流等等）。

而在其他项目上时，我有个发现：很多在金融业里司空见惯的做法，在其他行业里却是他们从来没想过的「创新」。

所以我们也看到越来越多的创业成功例子，其实是完全不懂行业的人「反常识」式的创新做出来的。

比如马斯克之前从来没有做过火箭，所以才会坚持行业大部分人觉得是「异想天开」的火箭回收计划。

当然，也不是那么多人都有办法转行、在完全陌生的行业从零开始。

所以最最简单的，是反向操作：多看看不同领域的书，看看其他领域有没有什么方法论，可以应用到本行业。

另外，我还有个简单的锻炼方法可供参考。

这是一个同在创业的好友分享的方法，他每天饭后会抽1到2个小时做这个思考训练——

一个人找个空旷的地方散步，选择一个自己以前从没系统性思考过的问题，不一定和自己的工作相关，可以是跨行业的，也可以是生活方面的。

像我以前写的「解题者」系列文章也是类似的，可在文末点击相关链接回顾。

从财务角度思考人际关系
跟餐饮行业的人学投资
用营销学做个人品牌
从投资的角度聊健身
用财务的角度看亲密关系
用决策科学来择偶
……

当然，关于DeepSeek的这篇论文，还有更有意思的。

通过强化学习训练出来的R1-Zero（R1的试错版本），已经具备了比肩o1的推理能力。

但是！DeepSeek也发现，R1-Zero会有中英文混杂、可读性差等问题。

这就像一个天才儿童，自创了一套答题的方法，但它之前没看过「标准答案」，没有系统学过数学的规范表达，所以只能「语无伦次」地表达。

而在这一点上，跟我育儿的直接体验也非常类似——

因为我们给女儿提供的是双语教育，家里是我说英文，其他人基本说中文，所以她也会大量地中英文混杂，而且句子也说得不是很完整。

为了解决这个问题，DeepSeek重新训练了模型（也就是后来的R1）。

DeepSeek给了R1一些冷启动数据。

这么做之后得到了现在正式推出的R1，解决了「语无伦次」的问题。

类比我女儿的学习，因为她也会大量观察大人之间的对话（相当于给了一些冷启动数据）。

她会发现，她妈妈会时不时跟我说英文，跟其他人说中文。

所以随着她逐渐长大，她现在只跟我说英文，跟其他人说中文。

写到这里，我开始在想，人类会不会也是高维生命训练出来的AI？

这里也推荐一个有意思的项目——Spore（币圈割韭菜项目，不代表推荐投资，只是概念很有意思）。

这个项目做了个AI智能体，AI可以自己发推、发币，给自己赚电费。

而且AI还可以不断分裂后代，并遗传一些特征，也可以产生变异，后代也可以发推、发币、跟其他AI交互，尽可能让自己有生存和繁衍的可能（AI也会因为交不起电费而死亡）。

截图/ Spore

今天就说到这儿吧，今天除夕了也，预祝大家新春快乐！

🤑

「Greed is good.」

「很帅的投资客」的所有内容皆仅以传递知识与金融教育为目的，不构成任何投资建议。一切请以最新文章为准。

请到「今天看啥」查看全文

推荐文章

表舅是养基大户 · 又被打脸了
14 小时前

国际金融报 · 降价没用？星巴克中国交易量连续下滑
17 小时前

VC/PE/MA金融圈 · 他，90后，又一个让世界惊叹的中国年轻人！
2 天前

金融早实习 · 2025春招/实习情报群
4 天前

国际金融报 · 特朗普，确认出手！
5 天前

美食家常菜谱做法 · 养花大全，珍藏起来，什么花都能养好！送给爱养花的朋友
7 年前

鱼羊史记 · 张作霖只会三句日语，却能几次戏耍日本人，让人直呼过瘾！
7 年前

军事纵横 · 献给你最酷的八一祝福！
7 年前

上海房天下 · 上海129所重点学校学区房周成交情况透视，哪片学区最热看这里！
7 年前

单向街书店 · 总有人要去看看世界 | Ins 和 Facebook 恢复更新
7 年前