Hamel Husain 这篇内容真的很好,全是实践经验。
#ai#
介绍如何帮助模型团队避免被各种指标淹没。
据我观察他说的这些问题国内模型训练团队也都有:
- 创建大量难以管理的指标
- 非常随意的评分标准
- 忽视领域专家意见
- 指标不能反映对用户或业务需求
他提出了Critique Shadowing来解决这些问题。
文章地址:hamel.dev/blog/posts/llm-judge/
介绍如何帮助模型团队避免被各种指标淹没。
据我观察他说的这些问题国内模型训练团队也都有:
- 创建大量难以管理的指标
- 非常随意的评分标准
- 忽视领域专家意见
- 指标不能反映对用户或业务需求
他提出了Critique Shadowing来解决这些问题。
文章地址:hamel.dev/blog/posts/llm-judge/