//@黄健楸:很多模型都把这些评估集纳入训练集，不是很准Huma-20250211092749_宝玉xp的专栏文章_微信文章

//@黄健楸:很多模型都把这些评估集纳入训练集，不是很准Huma-20250211092749

宝玉xp · 微博 · AI · 2025-02-11 09:27

正文

2025-02-11 09:27
本条微博链接

// @黄健楸 :很多模型都把这些评估集纳入训练集，不是很准 Humanity’s last exam 可能来不及纳入训练，不过第二个点问题很大

Jason Wei 刚发了一张“AI 在过去五年里如何快速进步”的图表，真的是一图胜千言，你可以通过这张图看到各种 AI 测试指标（也叫“基准”）的表现随时间迅速提高的趋势。

什么是“基准（Benchmark）”？

就好比学校考试一样，我们为了测验 AI 的能力，会让它回答问题或完成任务，然后打分。一些测试测的是常识问答（就像 TriviaQA 这种问你很多琐事或者常识性问题），有的测试考数学，或者考编程，或者考更高级的理工科试题等等。

图里每条彩色的线代表什么？

每条线代表一种特定的AI测试。这些测试有难有易，比如：
- TriviaQA 这种问答题（黄线）。
- MMLU 测各种科目的知识（蓝线）。
- GSM8K 测小学或基础数学（粉线）。
- 更专业、难度更高的数学比赛或理工科考试（例如 MATH、AIME、GPQA 等，图中其他颜色的线）。

//@黄健楸:很多模型都把这些评估集纳入训练集，不是很准Huma-20250211092749

正文

请到「今天看啥」查看全文