专栏名称: 机器学习算法与Python实战
长期跟踪关注统计学、数据挖掘、机器学习算法、深度学习、人工智能技术与行业发展动态,分享Python、机器学习等技术文章。回复机器学习有惊喜资料。
目录
相关文章推荐
gooood谷德设计网  ·  墨西哥Ment住宅楼 ·  2 天前  
湛江日报  ·  起猛了!一夜之间,湛江→花海🤩 ·  2 天前  
湛江日报  ·  起猛了!一夜之间,湛江→花海🤩 ·  2 天前  
51好读  ›  专栏  ›  机器学习算法与Python实战

一文读懂模型的可解释性(附代码)

机器学习算法与Python实战  · 公众号  ·  · 2024-10-29 11:29

正文

大模型的可解释性非常重要 。随着模型越来越大,其 “黑盒子”特性会严重影响模型结果的准确性,增加对模型的优化难度,以及在医学、金融等领域带来很高的应用风险。


因此提高大模型的可解释性,不仅能优化我们的实验结果,其方法本身也是一个可发paper的创新点。


今天总结一下目前最全的大模型可解释性技术。


首先按照大模型的训练范式分类: 传统 fine-tuning 范式 基于 prompting 的范式


基于传统 fine-tuning 范式的模型解释,又可分为 局部解释 全局解释


基于 prompting 的范式, 分为 基础模型的解释, 助手模型的解释


其中每种解释还有细分内容。为了方便大家学习,我按照上面的分类, 整理了118篇可解释性的精选论文 ,有开源代码的也一并整理 。扫码免费领取。


扫码 免费获取全部论文+开源代码



来看一下具体的分类。


传统 fine-tuning 范式中的局部解释


局部解释是对语言模型如何针对特定输入实例进行预测的理解,对单个样本预测进行解释。


具体方法包括 特征归因 基于注意力机制的解释 基于示例的解释 基于自然语言的解释


传统 fine-tuning 范式中的全局解释


全局解释从模型的角度出发,了解各个组件(神经元、隐藏层和更大的模块)编码的内容,为大模型的工作机制提供更高阶的解释。


全局解释有三种主要方法: 分析模型表征和参数的探测法 确定模型输入响应的神经元激活分析 ,以及 基于概念的方法


这些方法旨在理解模型的组件所编码的知识/语言属性,并解释每个组件所学习的内容。


全部118篇可解释性的精选论文,扫码免费下载。

扫码 免费获取全部论文+开源代码



基于 prompting 的范式中的基础模型解释


具体方法为 解释上下文学习 解释CoT提示 表征工程







请到「今天看啥」查看全文