Andrej Karpathy 前几天发的“深度解析像 Chat-20250208131509_宝玉xp的专栏文章_微信文章

Andrej Karpathy 前几天发的“深度解析像 Chat-20250208131509

宝玉xp · 微博 · AI · 2025-02-08 13:15

正文

2025-02-08 13:15
本条微博链接

Andrej Karpathy 前几天发的“深度解析像 ChatGPT 的大语言模型“，实在是太长了点，我自己写的翻译软件一运行就崩溃，还要花点时间修复一下（很遗憾 AI 还搞不定），先挑了其中一节讲 DeepSeek R1 的翻译了一下，强化学习如何让大模型学会“思考”。

像 GPT-4o 这种属于传统的预训练和监督微调（SFT）模型，而 o1，DeepSeek R1 这种则属于强化学习（RL）训练模型，能让模型自发地进行更复杂、更具创造力的推理。模型在不断迭代中学会自我回溯、多角度思考，输出更完整的解题过程。

Andrej 对 DeepSeek R1 评价不错，虽然 OpenAI 是首先实现了 RLFT，但DeepSeek R1更公开透明，带来可复现的研究细节，权重可下载。

他也给了日常模型选择上的建议，如果你要解决高难度数学或编程问题，像 R1 这样的“思考型模型”更具优势，但相应的计算与时间成本更长，一些知识性或简单的咨询问题用 GPT-4o 这样的监督微调（SFT）模型就足够了。

Andrej Karpathy 前几天发的“深度解析像 Chat-20250208131509

正文

请到「今天看啥」查看全文