大模型变天了！一夜之间黑盒变白盒！2大创新思路带你顺利上分

深度之眼 · 公众号 · · 2024-10-31 20:22

正文

大模型的可解释性非常重要 。随着模型越来越大，其 “黑盒子”特性会严重影响模型结果的准确性，增加对模型的优化难度，以及在医学、金融等领域带来很高的应用风险。

因此提高大模型的可解释性，不仅能优化我们的实验结果，其方法本身也是一个可发paper的创新点。

今天总结一下目前最全的大模型可解释性技术。

首先按照大模型的训练范式分类： 传统 fine-tuning 范式 和 基于 prompting 的范式 。

基于传统 fine-tuning 范式的模型解释，又可分为 局部解释 和 全局解释 。

基于 prompting 的范式，分为 对基础模型的解释， 和 对助手模型的解释 。

其中每种解释还有细分内容。为了方便大家学习，我按照上面的分类， 整理了118篇可解释性的精选论文 ，有开源代码的也一并整理 。扫码免费领取。

扫码免费获取全部论文+开源代码

来看一下具体的分类。

传统 fine-tuning 范式中的局部解释

局部解释是对语言模型如何针对特定输入实例进行预测的理解，对单个样本预测进行解释。

具体方法包括 特征归因 、 基于注意力机制的解释 、 基于示例的解释 、 基于自然语言的解释 。

传统 fine-tuning 范式中的全局解释

全局解释从模型的角度出发，了解各个组件（神经元、隐藏层和更大的模块）编码的内容，为大模型的工作机制提供更高阶的解释。

全局解释有三种主要方法： 分析模型表征和参数的探测法 、 确定模型输入响应的神经元激活分析 ，以及 基于概念的方法 。

这些方法旨在理解模型的组件所编码的知识/语言属性，并解释每个组件所学习的内容。

全部118篇可解释性的精选论文，扫码免费下载。

扫码免费获取全部论文+开源代码

基于 prompting 的范式中的基础模型解释

推荐文章

新京报评论 · 《甄嬛传》女演员“炫耀”肇事逃逸，何止是蠢 | 新京报快评

14 小时前

团结湖参考 · 现象级成果里，有最确定的“国运”

2 天前

政事堂2019 · DeepSeek之后，会如何？

2 天前

纪法指引 · 【镜鉴】黎邦华，搞权色、钱色交易！

2 天前

新京报评论 · 全村为患癌邻居翻修房屋，善举传递人性暖意 | 新京报快评

3 天前

哈哈搞笑视频 · 修车小伙上台被全灭灯，台下大胆美女却上台抢！

8 年前

哈哈搞笑视频 · 修车小伙上台被全灭灯，台下大胆美女却上台抢！

8 年前

BMWsky宝马会 · 新5系的风阻同级别最低！宝马攻城狮是如何实现的？

8 年前

视觉志 · 发年终奖前你需要知道的最重要的事......

8 年前

清单 · 你觉得情人节算个真正的“节日”吗？

8 年前