【llama3_interpretability_sae:一个完整的大语言模型(LLM)可解释性研究项目,使用稀疏自编码器(SAE)分析Llama 3.2模型,由纯PyTorch实现且可完全复现。包含从数据采集、SAE训练、特征分析到验证的全套流程,可帮助理解模型内部行为和概念表示】
'A complete end-to-end pipeline for LLM interpretability with sparse autoencoders (SAEs) using Llama 3.2, written in pure PyTorch and fully reproducible.'
GitHub: github.com/PaulPauls/llama3_interpretability_sae
#机器学习# #模型可解释性# #大语言模型# #神经网络#
'A complete end-to-end pipeline for LLM interpretability with sparse autoencoders (SAEs) using Llama 3.2, written in pure PyTorch and fully reproducible.'
GitHub: github.com/PaulPauls/llama3_interpretability_sae
#机器学习# #模型可解释性# #大语言模型# #神经网络#