专栏名称: 歸藏的AI工具箱
互联网科技博主 产品设计师、模型设计师、 不会代码的独立开发者。 关注人工智能、LLM 、 Stable Diffusion 和设计。
目录
相关文章推荐
山西省人民政府  ·  山西这些集体、个人拟获全国表彰 ·  13 小时前  
山西省人民政府  ·  今年山西第一批向民间资本推介项目名单公布 ·  20 小时前  
山西省人民政府  ·  今年山西第一批向民间资本推介项目名单公布 ·  20 小时前  
老乡俱乐部乡宁站  ·  山西8座煤矿名单公布! ·  昨天  
51好读  ›  专栏  ›  歸藏的AI工具箱

Open AI 研究员放出了他去年的一次分享。#ai# 可能刚好-20240920161108

歸藏的AI工具箱  · 微博  ·  · 2024-09-20 16:11

正文

2024-09-20 16:11

Open AI 研究员放出了他去年的一次分享。 #ai#

可能刚好讲到了可能关于 o1 的核心训练思路。

他的逻辑是 不要“教授”,要激励。

比如涉及 RL 时候常用来举例子的 AlphaGo。

不要告诉模型如何才能赢得棋局,而应该引导模型学习什么是好的走法。

强烈推荐听一下,图里是 Claude 的笔记。

原始视频: 网页链接






请到「今天看啥」查看全文


推荐文章
山西省人民政府  ·  山西这些集体、个人拟获全国表彰
13 小时前
山西省人民政府  ·  今年山西第一批向民间资本推介项目名单公布
20 小时前
山西省人民政府  ·  今年山西第一批向民间资本推介项目名单公布
20 小时前
老乡俱乐部乡宁站  ·  山西8座煤矿名单公布!
昨天
华夏影像诊断中心  ·  有了这张图,轻松诊断椎管内占位
7 年前
VC/PE/MA金融圈  ·  30张PPT告诉你真正的“工业4.0”|姿势
7 年前