【AxBench:斯坦福NLP团队开发的Python库,用于评估大型语言模型(LLM)可解释性方法的实用性。亮点:1. 提供16K概念训练数据,助力模型精准理解;2. 包含10+种可解释性方法,涵盖微调和提示基线;3. 支持LLM-in-the-loop训练,生成数据成本低至0.01美元/概念】
'AxBench: a scalable benchmark that evaluates interpretability techniques on two axes: concept detection and model steering.'
GitHub: github.com/stanfordnlp/axbench
#大型语言模型# #模型可解释性# #数据生成# #AI创造营#
'AxBench: a scalable benchmark that evaluates interpretability techniques on two axes: concept detection and model steering.'
GitHub: github.com/stanfordnlp/axbench
#大型语言模型# #模型可解释性# #数据生成# #AI创造营#