专栏名称: 黄建同学
数码博主 超话主持人(ChatGPT超话) 头条文章作者 我的学习笔记,关注AI+新能源
目录
相关文章推荐
爱可可-爱生活  ·  【The End of Search, ... ·  昨天  
新智元  ·  潞晨华为联手放大招!DeepSeek-R1推 ... ·  2 天前  
爱可可-爱生活  ·  《爱可可微博热门分享(2.2)》 ... ·  3 天前  
黄建同学  ·  Cursor官方宣布支持DeepSeek了… ... ·  4 天前  
编程技术进阶  ·  “DeepSeek 甚至绕过了 ... ·  5 天前  
编程技术进阶  ·  “DeepSeek 甚至绕过了 ... ·  5 天前  
51好读  ›  专栏  ›  黄建同学

#中国AI大模型震动华尔街#国外来仿我们的Deepseek-R1-20250126073735

黄建同学  · 微博  · AI  · 2025-01-26 07:37

正文

2025-01-26 07:37

#中国AI大模型震动华尔街#国外来仿我们的Deepseek-R1 来了[666][666][666]

Open R1:DeepSeek-R1的完全开源复现🔥🔥🔥

Hugging Face推出Open R1,这是对DeepSeek-R1的开源复现项目,旨在让每个人都能重现并基于R1管道进行构建和改进。项目设计简洁直观,包含以下主要模块:

1. 训练与评估:提供脚本用于模型训练、评估以及生成合成数据。

2. 多阶段流程:通过清晰的步骤复制DeepSeek-R1的技术报告,包括蒸馏模型、强化学习管道以及多阶段训练。

Open R1旨在搭建完整的R1管道,分为三大步骤:

1. 蒸馏模型复现:从高质量语料中提取数据,训练R1蒸馏模型。

2. 强化学习(RL)训练:通过大规模数据集,复现R1-Zero的纯RL管道。

3. 多阶段训练:从基础模型出发,通过多阶段训练实现强化学习微调。

访问:github.com/huggingface/open-r1

#ai##科技#