专栏名称: 宝玉xp
前微软Asp.Net最有价值专家 互联网科技博主 我是宝玉。
目录
相关文章推荐
爱可可-爱生活  ·  【[147星]NexusTrader:专业级 ... ·  2 天前  
新智元  ·  史上首次,DeepSeek登顶中美AppSt ... ·  2 天前  
爱可可-爱生活  ·  【[6.1k星]Upsonic:为企业级任务 ... ·  3 天前  
爱可可-爱生活  ·  【为什么对我们来说对话更容易】《Why ... ·  4 天前  
51好读  ›  专栏  ›  宝玉xp

JimFan:「那些认为强化学习(RL)所需的计算量更少的人,恐-20250128030844

宝玉xp  · 微博  · AI  · 2025-01-28 03:08

正文

2025-01-28 03:08

JimFan:「那些认为强化学习(RL)所需的计算量更少的人,恐怕对RL并不了解。
SFT:由人类生成数据,机器进行学习;
RL:由机器自己生成数据,机器进行学习。」

***
简单科普:

SFT(Supervised Fine-Tuning)是什么?

概念:SFT 全称「有监督微调」,它是在机器学习(尤其是大模型领域)中广泛使用的一种方法。先由人类收集或标注数据,然后再让模型在这些人工生成或标注的数据上进行训练。

特点:
- 数据通常由人工精心准备和整理;
- 数据质量高、内容相对可控;
- 由于数据量可能有限(或者需要人工标注),成本和可扩展性通常由人工投入决定。

RL(Reinforcement Learning)是什么?

概念:强化学习是让机器在「环境—行动—反馈—学习」这样的闭环中不断更新策略的过程。模型会在给定的环境中自行探索不同的动作(或决策),根据环境给予的奖励或惩罚调整行为,以达到最大化期望奖励的目标。

特点:
- 数据在很大程度上由机器「自己生成」,因为模型在环境中做决策后,会接收到即时反馈;
- 算法需要对环境的状态空间、动作空间和奖励机制进行建模,可能相当复杂;
- 需要强大的计算资源来处理不断增加的「探索-反馈-更新」循环。