专栏名称: 深度学习自然语言处理
一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
目录
相关文章推荐
51好读  ›  专栏  ›  深度学习自然语言处理

大模型领域,你心目中 idea 最惊艳的论文是哪篇?

深度学习自然语言处理  · 公众号  ·  · 2024-09-01 22:33

正文

知乎:Beyond Hsueh
链接: https://www.zhihu.com/question/665735775/answer/3611972970
推荐一篇 ICLR 2023 的文章:Semantic Uncertainty: Linguistic Invariances for Uncertainty Estimation in Natural Language Generation 。虽然这篇完成投稿时还没到大模型的爆发点,但我第一次读到这篇文章时就该研究意义不凡,当时就在好几个论文分享上推荐了这篇文章,果不其然今年看到相关研究成果发表在Nature上了  Detecting hallucinations in large language models using semantic entropy | Nature,也是引起了不小的轰动。如果未来语言学、信息论和深度学习实现大融合的话,那么这篇文章当为开山之作。
简单介绍一下,这篇文章提出一个很新颖的概念:语义熵(semantic entropy)。现在很多研究都认为大模型的幻觉或事实错误,均来自于最大似然概率的训练方式,即这种训练范式只是在学习拟合给定文本的下一个最可能出现的词,即最大化 的预测概率,本质上是在做词预测,很难说是否学习到真正的语义信息,比如对同一个输入语句“法国的首都在哪?”,模型无论回答“巴黎”还是“法国的首都是巴黎”,都会认为是正确的,但对于模型来说,在输出空间这就是两个不同的序列,这也就引出下面模型不确定性度量的问题。大模型的不确定性对于衡量模型输出是否可靠很重要,此前工作在度量大模型不确定性时,会针对一个输入序列 采样 k 个输出 ,把其中相同的输出序列聚类后,再计算所有输出的熵值。然而,对于上面的情况,我们应该把“巴黎”还是“法国的首都是巴黎”都聚为同类,因为针对同一个问题这两个回答的语义是等价的,因此这篇文章提出语义熵的概念。
文章先是阐述了生成模型的不确定性度量可能遇到的困难,首先就是模型输出有很多语义相同的序列,这往往需要进一步的判断,与分类模型单个输出不同,生成模型的输出空间几乎无法衡量,假设词表为 ,那么长度为 n 的序列输出空间为 ,随长度 n 呈指数级增长,并且这个 n 还不是一个定值,即输出序列长度是可变的,进一步增加了度量的难度。






请到「今天看啥」查看全文