专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
每天发现一家店  ·  今天这 12 件情人节礼物,好美! ·  2 天前  
武汉本地宝  ·  武汉元宵节8个亲子好去处推荐! ·  昨天  
武汉本地宝  ·  家长快看!武汉五区幼儿园入园体检指南来啦! ·  2 天前  
武汉本地宝  ·  武汉本周消费券领取时间一览表 ·  2 天前  
武汉本地宝  ·  武汉公积金账户的钱可以全额提取吗? ·  3 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

研究DeepSeek R1的技术人员,务必关注open-r1项目

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2025-02-10 11:23

正文



废话

DeepSeek通过论文分享了很多东西,然后输出的是王炸模型,但是对于绝大部分人来说,要从论文去逆推这些东西都是很困难的,当然,一个人很难,但是一群大牛就不难了。

huggingface就专门弄了一个 open-r1 的项目,在github,这个项目的目的非常清晰,就是补全R1的内容,现在已经有5k的star。名字和地方都给你了,url当然是没有的

务必试用一下

Open R1的介绍

这是 DeepSeek-R1 的一个完全开源复现项目。这个仓库目前还在进行中。

概述

这个仓库的目标是构建 R1 流程中缺失的部分,使得每个人都能够复现并在其基础上进行开发。该项目设计简单,主要包含:

  • • src/open_r1
    包含用于训练和评估模型以及生成合成数据的脚本:
  • • grpo.py
    在给定数据集上使用 GRPO 训练模型
  • • sft.py
    在数据集上进行简单的 SFT(监督微调)
  • • evaluate.py
    在 R1 基准测试上评估模型
  • • generate.py
    使用 Distilabel 从模型生成合成数据

实施计划

将使用 DeepSeek-R1 技术报告作为指南,大致可以分为三个主要步骤:

  1. 1. 第一步

通过从 DeepSeek-R1 提取高质量语料库来复现 R1-Distill 模型。







请到「今天看啥」查看全文


推荐文章
每天发现一家店  ·  今天这 12 件情人节礼物,好美!
2 天前
武汉本地宝  ·  武汉元宵节8个亲子好去处推荐!
昨天
武汉本地宝  ·  武汉本周消费券领取时间一览表
2 天前
武汉本地宝  ·  武汉公积金账户的钱可以全额提取吗?
3 天前
广东台今日关注  ·  广州南站返程高峰持续 三千泊位供停车接客
8 年前
热门视频集汇  ·  人品,一个人最硬的底牌
7 年前