The Information 昨天发布的报道说 Open AI 推理能力很强的模型 Strawberry 即将发布。
#ai#
可能用了跟斯坦福研究 Quiet-STaR 类似的方法。
又重新看了一下这个论文,Quiet-STaR 通过三个步骤提高模型推理能力:
并行生成理由:首先,在输入序列的每个标记位置并行生成多个理由。每个理由的长度为t,并在每个理由的开始和结束处插入学习的起始和结束标记。
混合后理由和基础预测:然后,使用一个混合头从每个理由的隐藏状态输出和原始文本标记的隐藏状态输出中生成一个权重,该权重决定了在后续标记预测中使用多少后理由的预测逻辑。
优化理由生成:最后,使用REINFORCE算法优化理由生成参数,以增加使未来文本更可能的理由的可能性。
论文地址: 网页链接
可能用了跟斯坦福研究 Quiet-STaR 类似的方法。
又重新看了一下这个论文,Quiet-STaR 通过三个步骤提高模型推理能力:
并行生成理由:首先,在输入序列的每个标记位置并行生成多个理由。每个理由的长度为t,并在每个理由的开始和结束处插入学习的起始和结束标记。
混合后理由和基础预测:然后,使用一个混合头从每个理由的隐藏状态输出和原始文本标记的隐藏状态输出中生成一个权重,该权重决定了在后续标记预测中使用多少后理由的预测逻辑。
优化理由生成:最后,使用REINFORCE算法优化理由生成参数,以增加使未来文本更可能的理由的可能性。
论文地址: 网页链接