专栏名称: 爱可可-爱生活
知名互联网资讯博主 北邮PRIS模式识别实验室陈老师
目录
相关文章推荐
爱可可-爱生活  ·  【[437星]Cloudflare ... ·  11 小时前  
爱可可-爱生活  ·  【[214星] DeepSeek ... ·  11 小时前  
微软亚洲研究院  ·  提示词优化、FP4量化训练、灵巧机器人抓取策 ... ·  13 小时前  
量子位  ·  实测Claude ... ·  昨天  
歸藏的AI工具箱  ·  Claude 3.7 Sonnet ... ·  昨天  
歸藏的AI工具箱  ·  Claude 3.7 Sonnet ... ·  昨天  
51好读  ›  专栏  ›  爱可可-爱生活

【[214星] DeepSeek R1:介绍了如何从头构建 De-20250226185748

爱可可-爱生活  · 微博  · AI  · 2025-02-26 18:57

正文

2025-02-26 18:57

【[214星] DeepSeek R1:介绍了如何从头构建 DeepSeek R1 模型,包括使用 Qwen 作为基础模型,应用 GRPO 算法进行初步训练,以及通过 Supervised Fine-Tuning (SFT) 和改进的强化学习方法提升模型的推理能力和语言一致性。亮点:1. 从基础模型到推理模型,全流程代码实现;2. 使用GRPO算法优化推理能力,效率提升显著;3. 提供详细的训练过程和手绘流程图,小白也能轻松上手】
'Building DeepSeek R1 from Scratch: A step-by-step guide to training a reasoning-focused LLM using Python'
GitHub: github.com/FareedKhan-dev/train-deepseek-r1
#深度学习# #推理模型# #开源项目# #AI创造营#






请到「今天看啥」查看全文