回复
@今天韩士奇碰翻东西了吗
:目前 R1 的结果和别的模型一样,甚至在我告知解决方法的情况下,仍然认为这个问题无解。
评论配图
//
@今天韩士奇碰翻东西了吗
:r1 的训练就是用 rl 试图解决这问题。只设定结果,不关心过程,ai 自己去推理,能比较好的摆脱训练数据桎梏,有更好的泛化能力
终于设计出一个大模型干不了的任务,怎么给提示词都干不了。而且这个任务既不复杂也不难,用到的相关知识属于任何大模型训练都一定会纳入的内容。
我分析了一下,原因可能是:
1、网上有很多容易和这个任务混淆的内容。所以无论怎么详细设定目标,大模型都会误解提示词的意图。
2、涉及相关技术的文档都说不推荐这样做。所以即便直接给出解决问题的方法,让大模型去实现,大模型还是会用规规矩矩的标准方法来实现。
我分析了一下,原因可能是:
1、网上有很多容易和这个任务混淆的内容。所以无论怎么详细设定目标,大模型都会误解提示词的意图。
2、涉及相关技术的文档都说不推荐这样做。所以即便直接给出解决问题的方法,让大模型去实现,大模型还是会用规规矩矩的标准方法来实现。