专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
数据派THU  ·  原创 | ... ·  3 天前  
DataFunTalk  ·  DataOps for LLM ... ·  3 天前  
DataFunTalk  ·  DataOps for LLM ... ·  3 天前  
数据派THU  ·  【NeurIPS ... ·  6 天前  
大数据分析和人工智能  ·  马斯克成功的秘诀 ·  4 天前  
大数据文摘  ·  别笑,你可能也分不清这些视频是不是AI的。 ·  1 周前  
51好读  ›  专栏  ›  数据派THU

【NeurIPS2024】IDGen:基于项目区分度的提示生成用于大型语言模型评估

数据派THU  · 公众号  · 大数据  · 2024-10-15 17:00

正文

来源:专知

本文为论文介绍,建议阅读5分钟

我们提出了一种基于项目区分度的提示生成框架,用于评估 LLMs,确保评估集能够根据模型能力不断更新和改进。


随着大型语言模型 (LLMs) 在处理复杂任务方面变得越来越娴熟,评估集也必须跟上这些进展,以确保其具有足够的区分度。广泛应用于教育评估中的项目区分度 (ID) 理论衡量的是单个测试项目区分高低表现者的能力。受该理论的启发,我们提出了一种基于项目区分度的提示生成框架,用于评估 LLMs,确保评估集能够根据模型能力不断更新和改进。我们的数据生成框架既重视广度又重视特异性,能够生成全面评估 LLMs 能力的提示,同时揭示模型之间有意义的性能差异,从而有效区分它们在各类任务和领域中的相对强项和弱项。
为了生成高质量数据,我们在泛化框架中引入了自我修正机制,并开发了两个模型来预测提示的区分度和难度评分,以便促进我们的数据生成框架,为评估数据生成研究贡献了有价值的工具。我们将生成的数据应用于评估五个现今最先进的模型。我们的数据平均得分为 51.92,方差为 10.06。相比之下,之前的工作(如 SELF-INSTRUCT 和 WizardLM)平均得分超过 67,方差低于 3.2。结果表明,我们框架生成的数据相比之前的工作更加具有挑战性和区分度。我们将发布包含超过 3,000 个精心设计的提示的数据集,以促进 LLMs 评估研究的发展。



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU