[CL] DeepSeek-Prover-V1.5: Harnessing Proof Assistant Feedback for Reinforcement Learning and Monte-Carlo Tree Search
网页链接
提出了DeepSeek-Prover-V1.5模型,通过预训练、监督微调、强化学习和蒙特卡罗树搜索,在Lean 4定理证明任务上取得了新的最优结果。
网页链接
提出了DeepSeek-Prover-V1.5模型,通过预训练、监督微调、强化学习和蒙特卡罗树搜索,在Lean 4定理证明任务上取得了新的最优结果。