专栏名称: 爱可可-爱生活

知名互联网资讯博主北邮PRIS模式识别实验室陈老师

目录

相关文章推荐

爱可可-爱生活 · 揭秘语言模型设计决策的下游影响查看图片 ... · 2 天前

宝玉xp · 谷歌迈出关键一步：测试纯AI搜索，不再显示传 ... · 2 天前

爱可可-爱生活 · 【[29星]TokenOCR：一款面向文档理 ... · 2 天前

宝玉xp · 这两天国内 AI 圈最火的非 Manus ... · 2 天前

宝玉xp · 👍你的标题取的好//@我是二姐夫:就刚刚爆红 ... · 2 天前

51好读 › 专栏 › 爱可可-爱生活

从分布中提取判断：让AI评价更准确查看图片 //@爱可可-爱-20250307131712

爱可可-爱生活 · 微博 · AI · 2025-03-07 13:17

正文

2025-03-07 13:17
本条微博链接

从分布中提取判断：让AI评价更准确

查看图片 // @爱可可-爱生活 :本文创新性地指出，在LLM Judge任务中，充分利用LLM输出的判断分布（特别是均值）比仅依赖文本界面（众数）更有效，并反直觉地发现链式思考（CoT）在某些评估场景下可能损害性能，强调了挖掘LLM输出分布信息以提升评估准确性和校准性的重要性，为LLM Judge的实践应用提供了重要的方法论和实践指导。

[CL]《Improving LLM-as-a-Judge Inference with the Judgment Distribution》V Wang, M J.Q. Zhang, E Choi [The University of Texas at Austin & New York University] (2025)

请到「今天看啥」查看全文

推荐文章

爱可可-爱生活 · 揭秘语言模型设计决策的下游影响查看图片 //@爱可可-爱生活-20250308065910

2 天前

宝玉xp · 谷歌迈出关键一步：测试纯AI搜索，不再显示传统链接我们平时上网找-20250307234516

2 天前

爱可可-爱生活 · 【[29星]TokenOCR：一款面向文档理解的文本图像基础模型-20250307215027

2 天前

宝玉xp · 这两天国内 AI 圈最火的非 Manus 莫属了，很惭愧我没有邀-20250307124646

2 天前

宝玉xp · 👍你的标题取的好//@我是二姐夫:就刚刚爆红的Manus，我做-20250307125633

2 天前

译言 · 本世纪最佳电影配乐清单…还有…

8 年前

LinkedIn校园 · 别人不帮你，真的不是嫌你LOW

8 年前

券商中国 · 4月7日起新老划断！信用债质押回购门槛提高，AAA成债市"国标"

7 年前

OKCoin币行 · 莱特币暴涨至364.99元！比特币ETH接下来怎么走？丨6月19日币行

7 年前

影视大魔王 · 这部剧告诉我们，男人心机起来比女人还可怕...

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!