专栏名称: 宝玉xp
前微软Asp.Net最有价值专家 互联网科技博主 我是宝玉。
目录
相关文章推荐
机器之心  ·  817样本如何激发模型7倍推理性能,上交大L ... ·  15 小时前  
爱可可-爱生活  ·  【[2.4k星]Data ... ·  昨天  
爱可可-爱生活  ·  【[974星]video-subtitle- ... ·  昨天  
爱可可-爱生活  ·  //@爱可可-爱生活:欢迎参与~-20250 ... ·  2 天前  
新智元  ·  DeepSeek-R1-Zero不存在顿悟时 ... ·  3 天前  
51好读  ›  专栏  ›  宝玉xp

//@黄健楸:很多模型都把这些评估集纳入训练集,不是很准Huma-20250211092749

宝玉xp  · 微博  · AI  · 2025-02-11 09:27

正文

2025-02-11 09:27

// @黄健楸 :很多模型都把这些评估集纳入训练集,不是很准 [doge] Humanity’s last exam 可能来不及纳入训练,不过第二个点问题很大 网页链接
Jason Wei 刚发了一张“AI 在过去五年里如何快速进步”的图表,真的是一图胜千言,你可以通过这张图看到各种 AI 测试指标(也叫“基准”)的表现随时间迅速提高的趋势。

什么是“基准(Benchmark)”?

就好比学校考试一样,我们为了测验 AI 的能力,会让它回答问题或完成任务,然后打分。一些测试测的是常识问答(就像 TriviaQA 这种问你很多琐事或者常识性问题),有的测试考数学,或者考编程,或者考更高级的理工科试题等等。

图里每条彩色的线代表什么?

每条线代表一种特定的AI测试。这些测试有难有易,比如:
- TriviaQA 这种问答题(黄线)。
- MMLU 测各种科目的知识(蓝线)。
- GSM8K 测小学或基础数学(粉线)。
- 更专业、难度更高的数学比赛或理工科考试(例如 MATH、AIME、GPQA 等,图中其他颜色的线)。






请到「今天看啥」查看全文