Open AI 研究员放出了他去年的一次分享。
#ai#
可能刚好讲到了可能关于 o1 的核心训练思路。
他的逻辑是 不要“教授”,要激励。
比如涉及 RL 时候常用来举例子的 AlphaGo。
不要告诉模型如何才能赢得棋局,而应该引导模型学习什么是好的走法。
强烈推荐听一下,图里是 Claude 的笔记。
原始视频: 网页链接
可能刚好讲到了可能关于 o1 的核心训练思路。
他的逻辑是 不要“教授”,要激励。
比如涉及 RL 时候常用来举例子的 AlphaGo。
不要告诉模型如何才能赢得棋局,而应该引导模型学习什么是好的走法。
强烈推荐听一下,图里是 Claude 的笔记。
原始视频: 网页链接