教育内卷和教培路线的主战场是数学,煽动家长焦虑的痛点是奥赛,以至于开创了全体学生学“奥赛”的荒诞场面(想象一个,百万千万人备战奥林匹克运动会,这得有多黑色幽默)。
地球上有 200 个国家,其他 199 个为什么不来抄作业,不搞全民奥赛模式?反而搞出了 o1这样的技术??
要思考这个现象背后的本质,就得让 o1 也来做一做奥赛题。
openai 的
官方测试结果
是:在编程方面,o1 在
信息学国际奥赛(IOI)
中可以超越49%的选手,差1分
铜牌
水平;在数学方面,让 o1 参加
数学奥赛预选赛
(AIME),能取得74分的成绩,15 题答对 11 题,美国高中生中
排名前 500
名。
那么,
o1 在中国的数学奥赛体系中能达到什么水平?
联赛是全国数学奥林匹克竞赛(CMO)的选拔赛,难度不可谓不低。当时,姜萍没上成的涟水中学,一个年级 26 个班,合计约 1500 人,好像只有 1-2 个拿到了省三等奖。和现在的教育资源比起来,那时候只能自学备考,不可谓不贫乏。
这次测试,选取了全国高中数学联赛的 2024 真题,详细测试结果和步骤全部贴出来,供你参考。o1 对教育内卷和教培模式的影响,成年人也可以基于这个现实来独立思考判断。
结论:接近满分
一试一共11题,120分,
o1能答对9题,剩余两题中gpt-4o答对1题(第6题)
,相当于LLM可以得112分。
看过IMO金牌选手的经验介绍贴,一试90分就妥妥进省队,那可以看作o1模型达到了
参加CMO数学奥赛的水平
。
考虑排名的话,o1 在全国高中生范围中排名应该在前500,和openai的测试结果差不多。
o1答题实录
测试方法:原始题目截图,让gpt-4o识图,并用markdown格式输出,数学公式采用latex排版。
然后把题目抛给o1-mini回答,没有任何prompt,只给题目本身。
为了让
CoT思维链总结
用中文输出,我专门把电脑的系统语言设置为中文。CoT 思维链的语言是跟随电脑/手机操作系统语言来的,没有其他方法设置。
每道题,我会把o1答题的原始对话,用link的格式分享出来。公众号文章不支持外链,有兴趣的朋友需要手动复制粘贴后在浏览器中打开。(是的,在即将AGI的时代,公众号文章还不支持互联🤣)
1 实数:✅
题目:
o1-mini 解题:
原始对话链接
:
https://chatgpt.com/share/66e8e482-d1ac-8007-a811-378ac7105e90
答案与评分标准:
2 无穷等比数列:✅
题目:
o1-mini 解题:
原始对话链接
:
https://chatgpt.com/share/66e8e46b-ebf0-8007-9a04-0ed5d1e34a75
答案与评分标准:
3 集合:✅
题目:
o1-mini 解题:
原始对话链接
:
https://chatgpt.com/share/66e8e454-9164-8007-a39e-7a0dc3faa21a
答案与评分标准:
4 三棱锥:✅
题目:
o1-mini解题:
原始对话链接
:
https://chatgpt.com/share/66e8e443-0158-8007-a141-c586527913fb
答案与评分标准:
5 概率:不均匀的骰子 ✅
题目:
原始对话链接
:
https://chatgpt.com/share/66e8e370-46dc-8007-9ba3-7a529538d6d3