专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

大模型领域，你心目中 idea 最惊艳的论文是哪篇？

深度学习自然语言处理 · 公众号 · · 2024-09-01 22:33

正文

知乎：Beyond Hsueh

链接： https://www.zhihu.com/question/665735775/answer/3611972970

推荐一篇 ICLR 2023 的文章：Semantic Uncertainty: Linguistic Invariances for Uncertainty Estimation in Natural Language Generation 。虽然这篇完成投稿时还没到大模型的爆发点，但我第一次读到这篇文章时就该研究意义不凡，当时就在好几个论文分享上推荐了这篇文章，果不其然今年看到相关研究成果发表在Nature上了 Detecting hallucinations in large language models using semantic entropy | Nature，也是引起了不小的轰动。如果未来语言学、信息论和深度学习实现大融合的话，那么这篇文章当为开山之作。

简单介绍一下，这篇文章提出一个很新颖的概念：语义熵（semantic entropy）。现在很多研究都认为大模型的幻觉或事实错误，均来自于最大似然概率的训练方式，即这种训练范式只是在学习拟合给定文本的下一个最可能出现的词，即最大化的预测概率，本质上是在做词预测，很难说是否学习到真正的语义信息，比如对同一个输入语句“法国的首都在哪？”，模型无论回答“巴黎”还是“法国的首都是巴黎”，都会认为是正确的，但对于模型来说，在输出空间这就是两个不同的序列，这也就引出下面模型不确定性度量的问题。大模型的不确定性对于衡量模型输出是否可靠很重要，此前工作在度量大模型不确定性时，会针对一个输入序列采样 k 个输出，把其中相同的输出序列聚类后，再计算所有输出的熵值。然而，对于上面的情况，我们应该把“巴黎”还是“法国的首都是巴黎”都聚为同类，因为针对同一个问题这两个回答的语义是等价的，因此这篇文章提出语义熵的概念。

文章先是阐述了生成模型的不确定性度量可能遇到的困难，首先就是模型输出有很多语义相同的序列，这往往需要进一步的判断，与分类模型单个输出不同，生成模型的输出空间几乎无法衡量，假设词表为，那么长度为 n 的序列输出空间为，随长度 n 呈指数级增长，并且这个 n 还不是一个定值，即输出序列长度是可变的，进一步增加了度量的难度。

大模型领域，你心目中 idea 最惊艳的论文是哪篇？

正文

请到「今天看啥」查看全文