[LG] A Survey on LLM-as-a-Judge
网页链接
本文系统地综述了利用大型语言模型进行评估(LLM-as-a-Judge)的研究进展,提出了一个新的评估基准,并揭示了一些反直觉的发现,例如并非所有改进策略都能提升性能,为构建更可靠、更鲁棒的 LLM-as-a-Judge 系统指明了方向。
网页链接
本文系统地综述了利用大型语言模型进行评估(LLM-as-a-Judge)的研究进展,提出了一个新的评估基准,并揭示了一些反直觉的发现,例如并非所有改进策略都能提升性能,为构建更可靠、更鲁棒的 LLM-as-a-Judge 系统指明了方向。