让 LLM 来评判 | 评估你的评估结果

Hugging Face · 公众号 · · 2025-02-10 10:30

正文

这是 让 LLM 来评判 系列文章的第三篇，敬请关注系列文章:

基础概念

选择 LLM 评估模型

设计你自己的评估 prompt

评估你的评估结果

奖励模型相关内容

技巧与提示

在生产中或大规模使用 LLM 评估模型之前，你需要先评估它在目标任务的表现效果如何，确保它的评分跟期望的任务表现一致。

注：如果评估模型的输出结果是二元分类，那么评估会相对简单，因为可使用的解释性分类指标有很多 (如准确率、召回率和精确率)。但如果输出是在某个范围内的分数，评估起来就会困难一些，因为模型输出和参考答案的相关性指标很难与分数映射的非常准确。

在选定 LLM 评估模型以及设计 prompt 之后，还需要：

你需要将选定模型的评估结果与基线对比。基线可以是很多种类型，如: 人工标注结果、标准答案、其他表现良好评估模型的结果、其他 prompt 对应模型的输出，等等。

测试用例的数量不需要非常多 (50 个足矣)，但必须极具代表性 (例如边缘用例)、区分性、并且质量足够高。

评估指标是用来比较评估结果和参考标准之间的差距的。

通常来说，如果比较对象是模型的二元分类或成对比较属性，评估指标计算起来就非常容易，因为一般使用召回率 (二元分类)、准确率 (成对比较)、和精确率作为评估指标，这些指标容易理解、且具有可解释性。

如果比较对象是模型得分与人类评分，则计算指标就会困难一些。如要深入理解可以阅读这篇博客。

https://eugeneyan.com/writing/llm-evaluators/#key-considerations-before-adopting-an-llm-evaluator

总的来说，如果你不清楚如何选择合适的评估指标或者评估模型，可以参考这篇博客中的图表 ⭐。

推荐文章

IPRdaily · 鲁飞：浅析商标注册人能否以“地方政府出台限制商标使用的实施意见”为由主张“商标不使用系政府政策性限制”

4 天前

知识产权界 · 参加知识产权工作者培训合格的资助500元/人，获得专利代理师资格资助2000元/人｜附通知

3 天前

厦门日报 · 家里不建议安装摄像头？民警提醒！

昨天

厦门日报 · 胡歌，突传新消息！

2 天前

厦门日报 · 霍启刚，有新职

2 天前

THLDL领导力 · 员工的离职成本竟然那么高!

8 年前

新手现货投资指导 · 下周重磅前瞻：关注美联储利率决议荷兰大选

7 年前

人民日报 · 人才缺口近千万！未来3年这些专业的人最抢手

7 年前

绘本家居 · 新房入住才2年就发现11个地方装错了，浪费了这么好户型！

7 年前

36氪 · 8点1氪：苹果发布会邀请函正式放出；微信看一看要开放短视频；孙宏斌投资乐视已亏损超39亿；癌症再见，美国批准首个基因疗法

7 年前