现在大部分宣称复刻Open AI o1的项目基本都是基于提示工程和模型微调,没有一个是基于强化学习的。
#ai#
Entropy-based sampling 这个项目看起来更有价值一些,虽然我也看不用太懂。
主要逻辑是基于熵的采样方法,用于改善大型语言模型(LLMs)的文本生成过程。
通过控制熵和方差熵来避免分布退化,提高生成结果的多样性和质量。
框架中,根据当前熵和方差熵的值,采取不同的策略,如贪心解码、分支、回溯或引入推理链(Chain of Thought, CoT)。
详细介绍:notes.haroldbenoit.com/ml/llms/inference/sampling/entropy-based-sampling
Entropy-based sampling 这个项目看起来更有价值一些,虽然我也看不用太懂。
主要逻辑是基于熵的采样方法,用于改善大型语言模型(LLMs)的文本生成过程。
通过控制熵和方差熵来避免分布退化,提高生成结果的多样性和质量。
框架中,根据当前熵和方差熵的值,采取不同的策略,如贪心解码、分支、回溯或引入推理链(Chain of Thought, CoT)。
详细介绍:notes.haroldbenoit.com/ml/llms/inference/sampling/entropy-based-sampling