专栏名称: 宝玉xp
前微软Asp.Net最有价值专家 互联网科技博主 我是宝玉。
目录
相关文章推荐
爱可可-爱生活  ·  【JaxADi:Python库,旨在连接Ca ... ·  昨天  
宝玉xp  ·  //@SpecTronic:而且 ... ·  2 天前  
Founder Park  ·  OpenAI ... ·  3 天前  
Founder Park  ·  OpenAI ... ·  3 天前  
爱可可-爱生活  ·  【Briefer:一个集成代码、数据可视化和 ... ·  1 周前  
51好读  ›  专栏  ›  宝玉xp

回复@嗡嗡吃melon:RAG的作用是针对你输入的内容检索相关内-20240911123001

宝玉xp  · 微博  · AI  · 2024-09-11 12:30

正文

2024-09-11 12:30

回复@嗡嗡吃melon:RAG的作用是针对你输入的内容检索相关内容,这里是生成内容的处理,所以不需要 RAG,遍历词汇表检索一下生成内容就可以了//@嗡嗡吃melon:用RAG做个高中词汇库,然后把生成的文章过一遍词库,发现不在词库的就要求替换呢?
问:让 GPT 为学生生成了一篇阅读理解文章后,发现里面总是会出现超纲(高中3000词汇表)的词,所以想请教有没有方法可以直接让gpt不使用超纲的词汇。直接说gpt好像做不到。

答:
限定输出词汇为高中词汇不超纲,这是一个基于通用的大语言模型很难直接做到的事,当然理论上可以让 LLM 在预测 Token 时,只挑选词汇表上的单词,但这个太底层了,成本也不会低。

如果我来做的话,我会这么做:

1. 选最优秀的模型:GPT-4o、Claude 3.5 Sonnet、GPT-4,如果这些模型都做不好,其他模型更可能是在浪费时间。

1. 优化提示词,在提示词中明确要求,这是面向“中国高中学生”的阅读理解文章,这样在输出时内容会更接近要生成的结果。同时应该测试对比美国小学、初中的结果,因为大语言模型可能对于美国的教育系统更熟悉。

3. 检查生成结果中哪些单词超纲,然后将原文和超纲的单词列表一起交给 LLM,让其重新生成。这个检查可以配合程序来做,让程序检查超纲单词效率更高,不过如果量不大,人工检查一下也很简单。通常 1-3 次改进就可以了。实在不行只能手工做或者重头开始一次。

这种技巧在使用 ChatGPT 时其实很常见,GPT 生成的答案不满意,明确告诉它哪里错了,它还是能改的。

但是需要注意的是,如果一直改不对,不要一直在聊天会话中回复消息,因为随着回复的消息越多,上下文越来越长,生成结果会越来越差,到最后可能都会遗忘最初的要求。

遇到这种一直改不对的问题,不妨回溯到最初几次的对话,修改优化一下原始提示词,把输入的消息长度控制在一个合理的范围,应该能得到想要的结果。