专栏名称: Howie和小能熊
小能熊是终生学习的小能熊,是自我管理的小能熊。 小能熊专注于分享自我学习方法,分享时间管理、知识管理等自我管理方面的经验和思考。 一句话,小能熊,来自学习者,服务学习者。 热爱学习、希望提升自我的你,希望小能熊能成为你的好朋友。
目录
相关文章推荐
每日经济新闻  ·  亲属决定放弃治疗!郭嘉璇去世,距离他19岁生 ... ·  13 小时前  
每日经济新闻  ·  34岁女子疑被拔错牙,坠楼前哭诉:谁来解救我 ... ·  8 小时前  
运营研究社  ·  小红书获客投产ROI超30,是怎么做到的?| ... ·  7 小时前  
91运营网  ·  直播话术手册.pdf ·  昨天  
51好读  ›  专栏  ›  Howie和小能熊

高考数学满分的o1,参加高中数学奥赛的话,能得满分吗?

Howie和小能熊  · 公众号  ·  · 2024-09-17 12:14

正文

教育内卷和教培路线的主战场是数学,煽动家长焦虑的痛点是奥赛,以至于开创了全体学生学“奥赛”的荒诞场面(想象一个,百万千万人备战奥林匹克运动会,这得有多黑色幽默)。

地球上有 200 个国家,其他 199 个为什么不来抄作业,不搞全民奥赛模式?反而搞出了 o1这样的技术??

要思考这个现象背后的本质,就得让 o1 也来做一做奥赛题。

openai 的 官方测试结果 是:在编程方面,o1 在 信息学国际奥赛(IOI) 中可以超越49%的选手,差1分 铜牌 水平;在数学方面,让 o1 参加 数学奥赛预选赛 (AIME),能取得74分的成绩,15 题答对 11 题,美国高中生中 排名前 500 名。

那么, o1 在中国的数学奥赛体系中能达到什么水平? 联赛是全国数学奥林匹克竞赛(CMO)的选拔赛,难度不可谓不低。当时,姜萍没上成的涟水中学,一个年级 26 个班,合计约 1500 人,好像只有 1-2 个拿到了省三等奖。和现在的教育资源比起来,那时候只能自学备考,不可谓不贫乏。

这次测试,选取了全国高中数学联赛的 2024 真题,详细测试结果和步骤全部贴出来,供你参考。o1 对教育内卷和教培模式的影响,成年人也可以基于这个现实来独立思考判断。

结论:接近满分

一试一共11题,120分, o1能答对9题,剩余两题中gpt-4o答对1题(第6题) ,相当于LLM可以得112分。

看过IMO金牌选手的经验介绍贴,一试90分就妥妥进省队,那可以看作o1模型达到了 参加CMO数学奥赛的水平

考虑排名的话,o1 在全国高中生范围中排名应该在前500,和openai的测试结果差不多。

o1答题实录

测试方法:原始题目截图,让gpt-4o识图,并用markdown格式输出,数学公式采用latex排版。

然后把题目抛给o1-mini回答,没有任何prompt,只给题目本身。

为了让 CoT思维链总结 用中文输出,我专门把电脑的系统语言设置为中文。CoT 思维链的语言是跟随电脑/手机操作系统语言来的,没有其他方法设置。

每道题,我会把o1答题的原始对话,用link的格式分享出来。公众号文章不支持外链,有兴趣的朋友需要手动复制粘贴后在浏览器中打开。(是的,在即将AGI的时代,公众号文章还不支持互联🤣)

1 实数:✅

题目:

o1-mini 解题:

原始对话链接 :

https://chatgpt.com/share/66e8e482-d1ac-8007-a811-378ac7105e90

答案与评分标准:

2 无穷等比数列:✅

题目:

o1-mini 解题:

原始对话链接 : https://chatgpt.com/share/66e8e46b-ebf0-8007-9a04-0ed5d1e34a75

答案与评分标准:

3 集合:✅

题目:

o1-mini 解题:

原始对话链接 : https://chatgpt.com/share/66e8e454-9164-8007-a39e-7a0dc3faa21a

答案与评分标准:

4 三棱锥:✅

题目:

o1-mini解题:

原始对话链接 : https://chatgpt.com/share/66e8e443-0158-8007-a141-c586527913fb

答案与评分标准:

5 概率:不均匀的骰子  ✅

题目:

原始对话链接 : https://chatgpt.com/share/66e8e370-46dc-8007-9ba3-7a529538d6d3







请到「今天看啥」查看全文