就在今天,Abacus AI与Yann LeCunn及其团队合作创建了全新的大语言模型基准测试LiveBench AI!
LiveBench AI——世界上第一个无法被操纵的大语言模型基准测试!
LiveBench是一个不断更新的基准测试,具有无法简单被模型记住的新挑战。与盲目的人类评估不同,你无法通过微调或风格破解来让大语言模型在简单的人类对话中得高分。
从不同维度评估大语言模型,包括推理、编程、写作和数据分析
引入LiveBench的主要原因是可以更好地区分大语言模型。以下是一些主要发现:
GPT-4o 略胜于 GPT-4-turbo
Claude Opus 在数据分析和语言理解方面表现出色
Gemini 的得分不如 Claude 或 GPT-4,在Lmsys上的表现也是如此。这意味着,总的来说,Gemini 不如 Claude 或 GPT-4
GPT-4 在推理和编程方面表现远胜于 GPT-4o。和其他其他实验室之前的基准测试表现一致
阿里的Qwen 72B 是最好的开源模型
这个基准测试为大语言模型提供了独立、客观和透明的排名
LiveBench 具有以下属性:
LiveBench 旨在通过每月发布新问题以及基于最近发布的数据集、arXiv 论文、新闻文章和 IMDb 电影概要提出问题来限制潜在的污染
每个问题都有可验证的、客观的事实答案,允许对难题进行准确、自动的评分,而无需使用 LLM 法官
LiveBench 目前包含 6 个类别的 18 个不同任务,随着时间的推移,将发布新的、更难的任务
今天,发布了第一批 960 个问题,并计划每月发布几套问题。通过这样做,目标是使 LiveBench 免受污染,因为每个版本都会有新的问题
在测试大语言模型(LLM)时,LiveBench采取了一些措施来确保测试结果的准确性和公平性。
避免污染:LiveBench通过设计,只包含那些有明确、客观答案的问题,避免了测试过程中的偏差和污染
避免评估陷阱:传统的LLM评估方法和众包提示(即让一群人提出问题并评估答案)虽然有优点,但也有很多问题。例如,传统方法可能会引入偏见,尤其是在评估难题答案时表现得尤为明显
客观问题:LiveBench只选择那些有明确对错的客观问题,而不是那些答案可能因人而异的问题
偏差问题:研究表明,对于一些具有挑战性的推理和数学问题,GPT-4-Turbo模型的评判结果(即判断一个答案是对还是错)与实际正确答案的相关性不到60%。这意味着传统方法在这些复杂问题上的准确性较低。
结语
详情:https://livebench.ai/#/blog
⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~