如何提升LLMs：Self-Refine

待字闺中 · 公众号 · · 2023-11-17 11:30

正文

Self-Refine模仿人类的三步过程，其中从大型语言模型（LLMs）得到的初始输出通过一系列迭代反馈进行精炼。

这种方法最大的优势是它不需要任何监督训练数据、额外训练或强化学习。

一个单一的大型语言模型被用于生成、改进和反馈。

Self-Refine在七项不同的任务中进行了测试，用于对话响应生成、数学推理等。

Self-Refine的基本原则是，当我们作为人类重新审视我们生成的东西时，我们通常会找到改进它的方法。考虑写一封电子邮件；如果我们将第一个版本保存在草稿文件夹中，几小时后再次阅读电子邮件，我们作为人类会直觉地找到改进写作的方法。

或者当程序员编写出一段代码，并随后反思他们的代码时，程序员总会发现方法来优化和改进它。

我们能否只生成多个输出而不进行优化？——不能

Self-Refine研究展示了一个大型语言模型（LLM）如何能够在不需要额外训练的情况下提供迭代式的自我精炼，从而在广泛的任务上产生更高质量的输出。

在上面的图片中，你可以看到左边是初始输出，用同一个大型语言模型（LLM）生成反馈，然后再次使用同一个LLM进行细化。

Self-Refine对较弱的模型也同样有效吗？不。

自我改进的一个优势是只利用了一个单一的大型语言模型（LLM），但这也带来了一个重要的考虑因素。那就是这种方法在很大程度上依赖于它所使用的基础LLM。研究发现，改进与LLM的大小是一致的。GPT-4 & 自我完善的效果比GPT-3.5 & 自我完善要好。

输出的质量随着迭代次数的增加而提高。

考虑到上面的图片，平均来说，随着迭代次数的增加，输出的质量也在提高。

推荐文章

中国民兵 · 最后4天，错过再等半年！

12 小时前

海西晨报 · 泰国最新宣布：断网！断电！断油！时间定了

2 天前

中国民兵 · 警备纠察队官兵春节在干啥？来看 →

3 天前

福州日报 · 国防部发布：当那一天来临

4 天前

福州日报 · 国防部发布：当那一天来临

4 天前

科大烽火 · 歼-35隐身机开启“野兽模式”，12枚导弹武德充沛，爆发强悍战力

4 天前

豆瓣电影 · 熊孩子出没请注意

8 年前

占豪 · 原创丨习总为何紧急出访这两个国家，有何深意？

8 年前

微路况 · 涨知识 | 黑夜里最亮的尾灯，你能认出几个？

8 年前

瞭望消金 · 新一轮地方交易场所清理整顿全面启动！事涉多家金交所

8 年前

国资报告 · 雄安新区筹备工作委员会领导赴中国建设科技集团调研考察

7 年前