专栏名称: 橘子汽水铺
橘子汽水铺 by orange.ai。 AI创始人, AI投资人,AI产品经理都在关注的AI科技自媒体。 聚焦最有商业价值的AI资讯,分享一线的AI产品经理经验。
目录
相关文章推荐
湖北经视  ·  饮用水源地水体被污染?淄博当地回应 ·  昨天  
传媒招聘那些事儿  ·  爱奇艺资深短视频编导!全职岗位@你! ·  3 天前  
51好读  ›  专栏  ›  橘子汽水铺

当 R1 学会骂人和脱口秀。。

橘子汽水铺  · 公众号  ·  · 2025-02-03 20:31

正文

春节假期马上就要过去了,这应该是 DeepSeek 系列的最后一篇。我想表达的东西也终于可以全部写在这里。

这几天使用 DeepSeek R1 过程中,有一个让我百思不得其解的问题:

为什么一个针对数学和推理优化的模型,却有着极高的文学造诣?

而且这种文学造诣不止是中文,在英文领域也超过了 Claude,拿下了创意写作榜第一。

这个问题我思考了好几天,直到前几天看到了一篇 Google 的最新论文,这个疑惑才算解开。


这一切还是要从 DeepSeek 模仿贴吧老哥骂人爆火说起。

虽然在科技圈 DeepSeek 的爆火主要是因为领先的模型技术水平和干掉英伟达股价的训练成本,但是在小红书流传最广的却是 DeepSeek 的文学造诣。

特别是当 DeepSeek 用贴吧老哥的口气骂人的时候,特别狠。

有多狠呢?上图

另外一个例子,是我的朋友赵纯想,在春节期间打 Dota2 被辱骂,于是写了一个回击工具:吵架包赢,里面的核心也是基于 DeepSeek 的贴吧老哥骂人能力。

项目已经开源,项目地址

https://github.com/liseami/DeepRant/

为什么有了深度思考能力之后,AI 连骂人都变强了?

我在观察 R1 思考的时候,发现它自己已道破天机:

骂人,不仅要靠脏话堆叠,也要有逻辑性做支撑。

这就是 R1 成为骂人最强模型的根本:逻辑性强。

这个道理不仅适用于骂人,也同样适用于写文章、写小说。

文采只是表面功夫,背后全是逻辑思维。

有人不认可这个观点,回应道:

网络上中文垃圾语言污染了 DeepSeek 的思考。

我把这个回应发给 R1,让它给一个有文化的回复,R1 的回复让我笑出了声:

(抚电子长髯) 君可知《诗经》"相鼠有皮"乃讽世之俚语,《史记》"竖子不足与谋"实鸿门之市骂?敦煌变文犹存"放屁"俗谚,冯梦龙笔下多见"鸟人"切口。中文如长江浩荡,载得动李太白捞月的琉璃盏,也浮得起张打油打翻的醋葫芦。

今之网言恰似洛阳纸贵时的童谣,汴梁瓦舍里的叫卖。您当这五千年的舌根是琉璃塔上不染尘的舍利子?殊不知仓颉造字时,鬼哭的正是人间百味都要入墨!

泥沙俱下方显大江本色,荤素不忌才是语言活水。您嫌腌臜词汇污了清听,却不见《康熙字典》里"屎"字列在"米"部——老祖宗早看透了,再精致的文明也得有排泄代谢的坦荡。(击键如磬) 与其忧心赛博污水,不如信中文这老炉鼎自有炼金术,三年梗五年嘲,自会淬出《世说新语》般的新火种。

精彩,太精彩了。

各类书籍里的语言早已包罗万象,贴吧老哥不过是一个小小的模仿罢了。

以前有个电影里说过,上网要想心情好,第一条规则就是:不要看评论区。

有了 R1 之后,从此以后再也不怕网络恶评,直接祭出嘴替 R1 ,优雅回击。

所有愤怒的情绪,都变成了赞美,赞美这个模型真TM太好用了。

这时候有人说道:

骂人和脱口秀原理其实是一样的。高智商组织的跳跃性逻辑,卡的的对手CPU冒烟。一个只能用大笑掩饰自己智商的不足,一个无力反驳哑口无言或者无能狂怒愤而动手。

于是我就让 R1 模仿呼兰的风格写了一个脱口秀,全文未改一个字。

为了方便大家理解感受,做成了视频形式:


朋友把这个AI 写的脱口秀发给了呼兰,还得到了回复:

(呼兰老师又谦虚又幽默,AI 肯定无法取代呼兰老师,AI 只想当个安静的助手,帮助呼兰老师写段子。)

事情发展到这里,文章开头的疑惑,变得逐渐清晰了起来。

为什么一个针对数学和推理优化的模型,却有着极高的文学造诣?

只是因为逻辑思维能力变强了?

就在这时候,o3 mini 发布了

我让 o3 mini 也试着写了一个脱口秀,结果却惨不忍睹。

有人提议说 o3 mini 中文肯定不行了,应该用英文写,我试了,确实比中文强点,但好像也不如 R1。

这可不是个例,还记得开头说的那个写作榜单吗,你有没有好奇,为什么榜单里没有 o3 mini?

原来 o3 mini 的写作能力竟然还不如 o1 mini,直接落榜。。。

官方宣称 o3 mini 的解题、代码能力是超过 R1 的,但是文学造诣却远远落后。

为什么会这样呢?难道是因为 o3 mini 是一个蒸馏出来的小模型,靠蒸馏而非自身强化学习进化出来的深度思考能力,难道无法泛化到文学领域吗?

就在我苦苦思考这个问题的时候,正好看到了 Google 在 1 月 29 日发表的一篇论文,这篇论文几乎完美地解答了我的问题。

这篇论文的名字叫:

SFT 记忆,RL 泛化:基础模型训练后的比较研究》

论文地址: https://huggingface.co/papers/2501.17161

这篇论文用一张图,非常清晰地解释了 RL 和 SFT 对模型的影响。

我来简单地解释一下:

SFT 的含义是监督微调,就像给学生看大量的例题和答案。学生通过模仿例题来学习。(虽然知识蒸馏和SFT是两个概念,但可以可以理解为SFT是知识蒸馏的一种简单形式)

强化学习 (RL) 就像让学生自己解题,答对了给奖励,答错了给惩罚。学生通过试错和总结规律来学习。

对照图表先看虚线,在与训练数据相似的场景里(In-Distribution) ,SFT 表现很好,一开始大幅领先 RL,但随着训练时间的增加,逐渐被RL追了上。

对照图表再看实线,在与训练数据非常不同的场景里(Out-of-Distribution),SFT 的表现急剧下降,而 RL 则面对新的环境表现稳定!

这篇论文的结论是,SFT 更倾向于记忆,像背题。RL则会泛化,是真的学会了原理。







请到「今天看啥」查看全文