回复@今天韩士奇碰翻东西了吗:目前 R1 的结果和别的模型一样，-20250212183650_t0mbkeeper的专栏文章_微信文章

回复@今天韩士奇碰翻东西了吗:目前 R1 的结果和别的模型一样，-20250212183650

t0mbkeeper · 微博 · 热门自媒体 · 2025-02-12 18:36

正文

2025-02-12 18:36
本条微博链接

回复 @今天韩士奇碰翻东西了吗 :目前 R1 的结果和别的模型一样，甚至在我告知解决方法的情况下，仍然认为这个问题无解。

评论配图 // @今天韩士奇碰翻东西了吗 :r1 的训练就是用 rl 试图解决这问题。只设定结果，不关心过程，ai 自己去推理，能比较好的摆脱训练数据桎梏，有更好的泛化能力

终于设计出一个大模型干不了的任务，怎么给提示词都干不了。而且这个任务既不复杂也不难，用到的相关知识属于任何大模型训练都一定会纳入的内容。

我分析了一下，原因可能是：
1、网上有很多容易和这个任务混淆的内容。所以无论怎么详细设定目标，大模型都会误解提示词的意图。
2、涉及相关技术的文档都说不推荐这样做。所以即便直接给出解决问题的方法，让大模型去实现，大模型还是会用规规矩矩的标准方法来实现。

回复@今天韩士奇碰翻东西了吗:目前 R1 的结果和别的模型一样，-20250212183650

正文

请到「今天看啥」查看全文