专栏名称: 深度之眼
入行人工智能,学算法公式,写毕业论文,看经典书籍,刷全球公开课,就来深度之眼
目录
相关文章推荐
新京报评论  ·  《甄嬛传》女演员“炫耀”肇事逃逸,何止是蠢 ... ·  14 小时前  
团结湖参考  ·  现象级成果里,有最确定的“国运” ·  2 天前  
政事堂2019  ·  DeepSeek之后,会如何? ·  2 天前  
纪法指引  ·  【镜鉴】黎邦华,搞权色、钱色交易! ·  2 天前  
51好读  ›  专栏  ›  深度之眼

大模型变天了!一夜之间黑盒变白盒!2大创新思路带你顺利上分

深度之眼  · 公众号  ·  · 2024-10-31 20:22

正文

大模型的可解释性非常重要 。随着模型越来越大,其 “黑盒子”特性会严重影响模型结果的准确性,增加对模型的优化难度,以及在医学、金融等领域带来很高的应用风险。


因此提高大模型的可解释性,不仅能优化我们的实验结果,其方法本身也是一个可发paper的创新点。


今天总结一下目前最全的大模型可解释性技术。


首先按照大模型的训练范式分类: 传统 fine-tuning 范式 基于 prompting 的范式


基于传统 fine-tuning 范式的模型解释,又可分为 局部解释 全局解释


基于 prompting 的范式, 分为 基础模型的解释, 助手模型的解释


其中每种解释还有细分内容。为了方便大家学习,我按照上面的分类, 整理了118篇可解释性的精选论文 ,有开源代码的也一并整理 。扫码免费领取。


扫码 免费获取全部论文+开源代码




来看一下具体的分类。


传统 fine-tuning 范式中的局部解释


局部解释是对语言模型如何针对特定输入实例进行预测的理解,对单个样本预测进行解释。


具体方法包括 特征归因 基于注意力机制的解释 基于示例的解释 基于自然语言的解释



传统 fine-tuning 范式中的全局解释


全局解释从模型的角度出发,了解各个组件(神经元、隐藏层和更大的模块)编码的内容,为大模型的工作机制提供更高阶的解释。


全局解释有三种主要方法: 分析模型表征和参数的探测法 确定模型输入响应的神经元激活分析 ,以及 基于概念的方法


这些方法旨在理解模型的组件所编码的知识/语言属性,并解释每个组件所学习的内容。



全部118篇可解释性的精选论文,扫码免费下载。


扫码 免费获取全部论文+开源代码




基于 prompting 的范式中的基础模型解释








请到「今天看啥」查看全文