Yann LeCunn等联手打造LiveBench AI：阿里Qwen2开源模型排名第一

AI寒武纪 · 公众号 · · 2024-06-13 14:07

正文

就在今天，Abacus AI与Yann LeCunn及其团队合作创建了全新的大语言模型基准测试LiveBench AI！

LiveBench AI——世界上第一个无法被操纵的大语言模型基准测试！

LiveBench是一个不断更新的基准测试，具有无法简单被模型记住的新挑战。与盲目的人类评估不同，你无法通过微调或风格破解来让大语言模型在简单的人类对话中得高分。

从不同维度评估大语言模型，包括推理、编程、写作和数据分析‍

引入LiveBench的主要原因是可以更好地区分大语言模型。以下是一些主要发现：

这个基准测试为大语言模型提供了独立、客观和透明的排名‍

LiveBench 具有以下属性：

今天，发布了第一批 960 个问题，并计划每月发布几套问题。通过这样做，目标是使 LiveBench 免受污染，因为每个版本都会有新的问题

在测试大语言模型（LLM）时，LiveBench采取了一些措施来确保测试结果的准确性和公平性。

避免污染：LiveBench通过设计，只包含那些有明确、客观答案的问题，避免了测试过程中的偏差和污染
‍
避免评估陷阱：传统的LLM评估方法和众包提示（即让一群人提出问题并评估答案）虽然有优点，但也有很多问题。例如，传统方法可能会引入偏见，尤其是在评估难题答案时表现得尤为明显
‍
客观问题：LiveBench只选择那些有明确对错的客观问题，而不是那些答案可能因人而异的问题
‍
偏差问题：研究表明，对于一些具有挑战性的推理和数学问题，GPT-4-Turbo模型的评判结果（即判断一个答案是对还是错）与实际正确答案的相关性不到60%。这意味着传统方法在这些复杂问题上的准确性较低。

结语

详情：https://livebench.ai/#/blog

⭐星标AI寒武纪，好内容不错过⭐

用你的赞和在看告诉我～