专栏名称: 爱可可-爱生活
知名互联网资讯博主 北邮PRIS模式识别实验室陈老师
目录
相关文章推荐
爱可可-爱生活  ·  揭秘语言模型设计决策的下游影响 查看图片 ... ·  2 天前  
爱可可-爱生活  ·  【[29星]TokenOCR:一款面向文档理 ... ·  2 天前  
宝玉xp  ·  这两天国内 AI 圈最火的非 Manus ... ·  2 天前  
51好读  ›  专栏  ›  爱可可-爱生活

从分布中提取判断:让AI评价更准确 查看图片 //@爱可可-爱-20250307131712

爱可可-爱生活  · 微博  · AI  · 2025-03-07 13:17

正文

2025-03-07 13:17

从分布中提取判断:让AI评价更准确 查看图片 // @爱可可-爱生活 :本文创新性地指出,在LLM Judge任务中,充分利用LLM输出的判断分布(特别是均值)比仅依赖文本界面(众数)更有效,并反直觉地发现链式思考(CoT)在某些评估场景下可能损害性能,强调了挖掘LLM输出分布信息以提升评估准确性和校准性的重要性,为LLM Judge的实践应用提供了重要的方法论和实践指导。
[CL]《Improving LLM-as-a-Judge Inference with the Judgment Distribution》V Wang, M J.Q. Zhang, E Choi [The University of Texas at Austin & New York University] (2025)






请到「今天看啥」查看全文