专栏名称: 黄建同学

数码博主超话主持人（ChatGPT超话）头条文章作者我的学习笔记，关注AI+新能源

目录

相关文章推荐

爱可可-爱生活 · 【Stanford CS236 Deep ... · 2 天前

黄建同学 · 学习-20250205192620 · 2 天前

宝玉xp · 转发微博-20250205142851 · 2 天前

宝玉xp · Deep Research ... · 3 天前

宝玉xp · Deep Research ... · 4 天前

51好读 › 专栏 › 黄建同学

DeepSeek的研究使得模型训练变得越来越高效，各种垂直小模型-20250207124241

黄建同学 · 微博 · AI · 2025-02-07 12:42

正文

2025-02-07 12:42
本条微博链接

DeepSeek的研究使得模型训练变得越来越高效，各种垂直小模型的春天要来了！

这个示例使用来自 DeepSeek GRPO 的新 RL 算法来训练推理 LLM。
在< 2 小时内，你可以将一个非常小的模型 Qwen 0.5（5 亿个参数）转变为一个小型数学推理机器。

访问：colab.research.google.com/drive/1bfhs1FMLW3FGa8ydvkOZyBNxLYOu0Hev

#deepseek# #ai创造营# #DeepSeek紧急说明#

请到「今天看啥」查看全文

推荐文章

爱可可-爱生活 · 【Stanford CS236 Deep Generative -20250205214119

2 天前

黄建同学 · 学习-20250205192620

2 天前

宝玉xp · 转发微博-20250205142851

2 天前

宝玉xp · Deep Research 系统提示词曝光昨天从 web 上测试-20250204230614

3 天前

宝玉xp · Deep Research 用在学术、专业领域上是相当不错的，比-20250204021928

4 天前

军事出鞘 · 毛岸英的抚恤金，数量曝光，震惊国人

8 年前

一起神回复 · 为什么总是忘记要做的事情？给我个完美的解释！

7 年前

虎扑翻译团 · 送别火箭：辛辛苦苦一整年，一夜回到解放前

7 年前

医学界影像诊断与介入频道 · 诺奖得主是如何看门诊的？医生站来现场直播！

7 年前

海尔集团 · 专利大战中，看一下隐形科技巨人的标准观

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!