今日推介(第1703期):用强化学习控制推理模型的思考时间、面向LLM-as-a-Judge的回归感知微调与思维链推理、更好地理解语言模型设计决策的下游影响、混合似然变分高斯过程、投币足够多次能让LLM表现像贝叶斯 公·众·号:爱可可爱生活
爱可可 AI 前沿推介(3.8)
#机器学习#
#人工智能#
#论文#