回复@嗡嗡吃melon:RAG的作用是针对你输入的内容检索相关内-20240911123001_宝玉xp的专栏文章_微信文章

回复@嗡嗡吃melon:RAG的作用是针对你输入的内容检索相关内容，这里是生成内容的处理，所以不需要 RAG，遍历词汇表检索一下生成内容就可以了//@嗡嗡吃melon:用RAG做个高中词汇库，然后把生成的文章过一遍词库，发现不在词库的就要求替换呢？

问：让 GPT 为学生生成了一篇阅读理解文章后，发现里面总是会出现超纲（高中3000词汇表）的词，所以想请教有没有方法可以直接让gpt不使用超纲的词汇。直接说gpt好像做不到。

答：
限定输出词汇为高中词汇不超纲，这是一个基于通用的大语言模型很难直接做到的事，当然理论上可以让 LLM 在预测 Token 时，只挑选词汇表上的单词，但这个太底层了，成本也不会低。

如果我来做的话，我会这么做：

1. 选最优秀的模型：GPT-4o、Claude 3.5 Sonnet、GPT-4，如果这些模型都做不好，其他模型更可能是在浪费时间。

1. 优化提示词，在提示词中明确要求，这是面向“中国高中学生”的阅读理解文章，这样在输出时内容会更接近要生成的结果。同时应该测试对比美国小学、初中的结果，因为大语言模型可能对于美国的教育系统更熟悉。

3. 检查生成结果中哪些单词超纲，然后将原文和超纲的单词列表一起交给 LLM，让其重新生成。这个检查可以配合程序来做，让程序检查超纲单词效率更高，不过如果量不大，人工检查一下也很简单。通常 1-3 次改进就可以了。实在不行只能手工做或者重头开始一次。

这种技巧在使用 ChatGPT 时其实很常见，GPT 生成的答案不满意，明确告诉它哪里错了，它还是能改的。

但是需要注意的是，如果一直改不对，不要一直在聊天会话中回复消息，因为随着回复的消息越多，上下文越来越长，生成结果会越来越差，到最后可能都会遗忘最初的要求。

遇到这种一直改不对的问题，不妨回溯到最初几次的对话，修改优化一下原始提示词，把输入的消息长度控制在一个合理的范围，应该能得到想要的结果。

回复@嗡嗡吃melon:RAG的作用是针对你输入的内容检索相关内-20240911123001

正文

2024-09-11 12:30
本条微博链接