Jason Wei 刚发了一张“AI 在过去五年里如何快速进步”-20250211090958_宝玉xp的专栏文章_微信文章

Jason Wei 刚发了一张“AI 在过去五年里如何快速进步”-20250211090958

宝玉xp · 微博 · AI · 2025-02-11 09:09

正文

2025-02-11 09:09
本条微博链接

Jason Wei 刚发了一张“AI 在过去五年里如何快速进步”的图表，真的是一图胜千言，你可以通过这张图看到各种 AI 测试指标（也叫“基准”）的表现随时间迅速提高的趋势。

什么是“基准（Benchmark）”？

就好比学校考试一样，我们为了测验 AI 的能力，会让它回答问题或完成任务，然后打分。一些测试测的是常识问答（就像 TriviaQA 这种问你很多琐事或者常识性问题），有的测试考数学，或者考编程，或者考更高级的理工科试题等等。

图里每条彩色的线代表什么？

每条线代表一种特定的AI测试。这些测试有难有易，比如：
- TriviaQA 这种问答题（黄线）。
- MMLU 测各种科目的知识（蓝线）。
- GSM8K 测小学或基础数学（粉线）。
- 更专业、难度更高的数学比赛或理工科考试（例如 MATH、AIME、GPQA 等，图中其他颜色的线）。
- “Humanity’s last exam” 则是个戏称，表示假设有一天真的出现了让 AI 无比头疼、也极度重要的「终极测试」。

为什么说这些基准“被迅速攻破”？

很多测试题本来设计出来时，AI 的水平还没法答对那么多题，结果 AI 技术却在短短几年内就不断更新升级，把准确率一次次提高，甚至超过人类平均水平或接近满分。有些考试原来以为对机器会很难，但现在看成绩，AI 的表现进步惊人。

这意味着什么？

说明 AI 的学习、推理和处理复杂任务的能力正在以非常快的速度提升。本来十年、二十年前，我们觉得“AI 大概还需要很久才能搞懂这些复杂考试”——但如今只用了区区几年，它就越过了一个又一个里程碑。

想想看我们普通人要达到这样的成就需要寒窗苦读多少年，如今 AI 短短几年就进步如此只神速，不知道未来会如何？

Jason Wei 刚发了一张“AI 在过去五年里如何快速进步”-20250211090958

正文

请到「今天看啥」查看全文