专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
目录
相关文章推荐
新智元  ·  刚刚,OpenAI史上最贵API上线!o1- ... ·  11 小时前  
爱可可-爱生活  ·  从协作式自我对弈中学习认知边界 查看图片 ... ·  13 小时前  
爱可可-爱生活  ·  xLSTM ... ·  昨天  
51好读  ›  专栏  ›  量子位

陶哲轩:o3-mini纠正了我一个数学错误,十分钟解决原本一小时才能完成的题目

量子位  · 公众号  · AI  · 2025-03-18 08:11

正文

白交 发自 凹非寺
量子位 | 公众号 QbitAI

大模型持续震惊科学家!

以往一小时才能完成的代码,现在十分钟就能实现「生成、测试到得出结果」。

“大模型推广大神” 陶哲轩 又来分享他的亲测体验了。

这一次o3-mini一眼识破并且纠正了他的一个错误,然后在它的帮助下快速完成了一道数学题的解答。

而在另一边,CMU数学教授、美国奥数国家队前掌舵人 罗博深 发现,GPT-o1在卡内基梅隆大学数学本科考试中 获得满分 ,而且每道题的解题时间不超过一分钟。

关键是,他专门设计的是全新的非标准问题,这些问题都是开卷的。

而普通学生的成绩分布be like:

陶哲轩:o3-mini纠正了我的错误

事情是这样的。

他在MathOverflow上遇到了这样一道题,由于答案不是封闭形式的,所以他想近似地模拟他。

首先,他要求o3-mini-high提供一些代码。结果在思考一分12秒之后,首先声明他试图计算的数量是 无限 的,但其实事实并非如此。此处o3-mini犯了个小错误。

不过它仍然提供了数值代码,确实粗略地近似了陶哲轩想要的数量(精确到小数点后一位)。

那时它意识到应该使用马尔可夫链理论来获得更精确的答案,于是先向 o3-mini-high询问理论公式,然后编写代码来计算结果。

有趣的是,它能够纠正提示中的一个基本错误: 把min写成了max

并且给了完美的代码,然后陶哲轩在此基础上对这一问题给出更精确的数值答案。

对此,陶哲轩的评价是:

总的来说, o3提供了相当不错的帮助 ;它犯了一个错误,我纠正了它,但我也犯了一个错误,它纠正了它。

而且以前我自己可能需要花一个小时的时间才能完成的代码,在大约十分钟内就生成、测试、修改并报告出来了。

也就在一周前,陶哲轩 才点赞o3-mini不久







请到「今天看啥」查看全文