专栏名称: Hugging Face
The AI community building the future.
目录
相关文章推荐
知识产权界  ·  参加知识产权工作者培训合格的资助500元/人 ... ·  3 天前  
厦门日报  ·  家里不建议安装摄像头?民警提醒! ·  昨天  
厦门日报  ·  胡歌,突传新消息! ·  2 天前  
厦门日报  ·  霍启刚,有新职 ·  2 天前  
51好读  ›  专栏  ›  Hugging Face

让 LLM 来评判 | 评估你的评估结果

Hugging Face  · 公众号  ·  · 2025-02-10 10:30

正文

这是 让 LLM 来评判 系列文章的第三篇,敬请关注系列文章:

在生产中或大规模使用 LLM 评估模型之前,你需要先评估它在目标任务的表现效果如何,确保它的评分跟期望的任务表现一致。

注: 如果评估模型的输出结果是二元分类,那么评估会相对简单,因为可使用的解释性分类指标有很多 (如准确率、召回率和精确率)。但如果输出是在某个范围内的分数,评估起来就会困难一些,因为模型输出和参考答案的相关性指标很难与分数映射的非常准确。

在选定 LLM 评估模型以及设计 prompt 之后,还需要:

1. 选择基线

你需要将选定模型的评估结果与基线对比。基线可以是很多种类型,如: 人工标注结果、标准答案、其他表现良好评估模型的结果、其他 prompt 对应模型的输出,等等。

测试用例的数量不需要非常多 (50 个足矣),但必须极具代表性 (例如边缘用例)、区分性、并且质量足够高。

2. 选择评估指标

评估指标是用来比较评估结果和参考标准之间的差距的。

通常来说,如果比较对象是模型的二元分类或成对比较属性,评估指标计算起来就非常容易,因为一般使用召回率 (二元分类)、准确率 (成对比较)、和精确率作为评估指标,这些指标容易理解、且具有可解释性。

如果比较对象是模型得分与人类评分,则计算指标就会困难一些。如要深入理解可以阅读 这篇博客

https://eugeneyan.com/writing/llm-evaluators/#key-considerations-before-adopting-an-llm-evaluator

总的来说,如果你不清楚如何选择合适的评估指标或者评估模型,可以参考 这篇博客 中的 图表 ⭐。

  • 博客链接 https://eugeneyan.com/writing/llm-evaluators/
  • LLM 评估决策图 https://eugeneyan.com/assets/llm-eval-tree.jpg







请到「今天看啥」查看全文