Jason Wei 刚发了一张“AI 在过去五年里如何快速进步”的图表,真的是一图胜千言,你可以通过这张图看到各种 AI 测试指标(也叫“基准”)的表现随时间迅速提高的趋势。
什么是“基准(Benchmark)”?
就好比学校考试一样,我们为了测验 AI 的能力,会让它回答问题或完成任务,然后打分。一些测试测的是常识问答(就像 TriviaQA 这种问你很多琐事或者常识性问题),有的测试考数学,或者考编程,或者考更高级的理工科试题等等。
图里每条彩色的线代表什么?
每条线代表一种特定的AI测试。这些测试有难有易,比如:
- TriviaQA 这种问答题(黄线)。
- MMLU 测各种科目的知识(蓝线)。
- GSM8K 测小学或基础数学(粉线)。
- 更专业、难度更高的数学比赛或理工科考试(例如 MATH、AIME、GPQA 等,图中其他颜色的线)。
什么是“基准(Benchmark)”?
就好比学校考试一样,我们为了测验 AI 的能力,会让它回答问题或完成任务,然后打分。一些测试测的是常识问答(就像 TriviaQA 这种问你很多琐事或者常识性问题),有的测试考数学,或者考编程,或者考更高级的理工科试题等等。
图里每条彩色的线代表什么?
每条线代表一种特定的AI测试。这些测试有难有易,比如:
- TriviaQA 这种问答题(黄线)。
- MMLU 测各种科目的知识(蓝线)。
- GSM8K 测小学或基础数学(粉线)。
- 更专业、难度更高的数学比赛或理工科考试(例如 MATH、AIME、GPQA 等,图中其他颜色的线)。