专栏名称: 宝玉xp
前微软Asp.Net最有价值专家 互联网科技博主 我是宝玉。
目录
相关文章推荐
宝玉xp  ·  视频来自 Stability AI 的 ... ·  昨天  
宝玉xp  ·  这篇刊登在自然杂志对 Deep ... ·  2 天前  
宝玉xp  ·  GitHub ... ·  2 天前  
爱可可-爱生活  ·  通俗版解读 查看图片-20250207091030 ·  3 天前  
黄建同学  ·  这门课的两位讲师是《Hands-On ... ·  3 天前  
51好读  ›  专栏  ›  宝玉xp

Andrej Karpathy 前几天发的“深度解析像 Chat-20250208131509

宝玉xp  · 微博  · AI  · 2025-02-08 13:15

正文

2025-02-08 13:15

Andrej Karpathy 前几天发的“深度解析像 ChatGPT 的大语言模型“,实在是太长了点,我自己写的翻译软件一运行就崩溃,还要花点时间修复一下(很遗憾 AI 还搞不定),先挑了其中一节讲 DeepSeek R1 的翻译了一下,强化学习如何让大模型学会“思考”。

像 GPT-4o 这种属于传统的预训练和监督微调(SFT)模型,而 o1,DeepSeek R1 这种则属于强化学习(RL)训练模型,能让模型自发地进行更复杂、更具创造力的推理。模型在不断迭代中学会自我回溯、多角度思考,输出更完整的解题过程。

Andrej 对 DeepSeek R1 评价不错,虽然 OpenAI 是首先实现了 RLFT,但DeepSeek R1更公开透明,带来可复现的研究细节,权重可下载。

他也给了日常模型选择上的建议,如果你要解决高难度数学或编程问题,像 R1 这样的“思考型模型”更具优势,但相应的计算与时间成本更长,一些知识性或简单的咨询问题用 GPT-4o 这样的监督微调(SFT)模型就足够了。






请到「今天看啥」查看全文