专栏名称: t0mbkeeper
汉语从句专家,茧房建筑师
目录
相关文章推荐
界面新闻  ·  6.99元/股!工商银行股价再创新高 ·  2 天前  
界面新闻  ·  春晚人形机器人开售即下架?宇树科技回应 ·  2 天前  
KnowYourself  ·  最该放下手机的时间,不是睡前 ·  3 天前  
51好读  ›  专栏  ›  t0mbkeeper

回复@今天韩士奇碰翻东西了吗:目前 R1 的结果和别的模型一样,-20250212183650

t0mbkeeper  · 微博  · 热门自媒体  · 2025-02-12 18:36

正文

2025-02-12 18:36

回复 @今天韩士奇碰翻东西了吗 :目前 R1 的结果和别的模型一样,甚至在我告知解决方法的情况下,仍然认为这个问题无解。 评论配图 // @今天韩士奇碰翻东西了吗 :r1 的训练就是用 rl 试图解决这问题。只设定结果,不关心过程,ai 自己去推理,能比较好的摆脱训练数据桎梏,有更好的泛化能力
终于设计出一个大模型干不了的任务,怎么给提示词都干不了。而且这个任务既不复杂也不难,用到的相关知识属于任何大模型训练都一定会纳入的内容。

我分析了一下,原因可能是:
1、网上有很多容易和这个任务混淆的内容。所以无论怎么详细设定目标,大模型都会误解提示词的意图。
2、涉及相关技术的文档都说不推荐这样做。所以即便直接给出解决问题的方法,让大模型去实现,大模型还是会用规规矩矩的标准方法来实现。






请到「今天看啥」查看全文