专栏名称: 宝玉xp
前微软Asp.Net最有价值专家 互联网科技博主 我是宝玉。
目录
相关文章推荐
新智元  ·  DeepSeek算力卡脖子,高校AI研究遇瓶 ... ·  14 小时前  
黄建同学  ·  Cursor AI 员工 Eric ... ·  20 小时前  
爱可可-爱生活  ·  【(免费书稿)The Math ... ·  昨天  
爱可可-爱生活  ·  【AgentRecSys:一个专注于基于大型 ... ·  昨天  
51好读  ›  专栏  ›  宝玉xp

Jason Wei 刚发了一张“AI 在过去五年里如何快速进步”-20250211090958

宝玉xp  · 微博  · AI  · 2025-02-11 09:09

正文

2025-02-11 09:09

Jason Wei 刚发了一张“AI 在过去五年里如何快速进步”的图表,真的是一图胜千言,你可以通过这张图看到各种 AI 测试指标(也叫“基准”)的表现随时间迅速提高的趋势。

什么是“基准(Benchmark)”?

就好比学校考试一样,我们为了测验 AI 的能力,会让它回答问题或完成任务,然后打分。一些测试测的是常识问答(就像 TriviaQA 这种问你很多琐事或者常识性问题),有的测试考数学,或者考编程,或者考更高级的理工科试题等等。

图里每条彩色的线代表什么?

每条线代表一种特定的AI测试。这些测试有难有易,比如:
- TriviaQA 这种问答题(黄线)。
- MMLU 测各种科目的知识(蓝线)。
- GSM8K 测小学或基础数学(粉线)。
- 更专业、难度更高的数学比赛或理工科考试(例如 MATH、AIME、GPQA 等,图中其他颜色的线)。
- “Humanity’s last exam” 则是个戏称,表示假设有一天真的出现了让 AI 无比头疼、也极度重要的「终极测试」。

为什么说这些基准“被迅速攻破”?

很多测试题本来设计出来时,AI 的水平还没法答对那么多题,结果 AI 技术却在短短几年内就不断更新升级,把准确率一次次提高,甚至超过人类平均水平或接近满分。有些考试原来以为对机器会很难,但现在看成绩,AI 的表现进步惊人。

这意味着什么?

说明 AI 的学习、推理和处理复杂任务的能力正在以非常快的速度提升。本来十年、二十年前,我们觉得“AI 大概还需要很久才能搞懂这些复杂考试”——但如今只用了区区几年,它就越过了一个又一个里程碑。

想想看我们普通人要达到这样的成就需要寒窗苦读多少年,如今 AI 短短几年就进步如此只神速,不知道未来会如何?






请到「今天看啥」查看全文