专栏名称: 量子位

վ'ᴗ' ի 追踪AI行业和技术动态，这里更快一步！关注我们，回复“今天”，更多大新闻等你来发现

陶哲轩：o3-mini纠正了我一个数学错误，十分钟解决原本一小时才能完成的题目

量子位 · 公众号 · AI · 2025-03-18 08:11

正文

白交发自凹非寺
量子位 | 公众号 QbitAI

大模型持续震惊科学家！

以往一小时才能完成的代码，现在十分钟就能实现「生成、测试到得出结果」。

“大模型推广大神” 陶哲轩 又来分享他的亲测体验了。

这一次o3-mini一眼识破并且纠正了他的一个错误，然后在它的帮助下快速完成了一道数学题的解答。

而在另一边，CMU数学教授、美国奥数国家队前掌舵人 罗博深 发现，GPT-o1在卡内基梅隆大学数学本科考试中 获得满分 ，而且每道题的解题时间不超过一分钟。

关键是，他专门设计的是全新的非标准问题，这些问题都是开卷的。

而普通学生的成绩分布be like：

陶哲轩：o3-mini纠正了我的错误

事情是这样的。

他在MathOverflow上遇到了这样一道题，由于答案不是封闭形式的，所以他想近似地模拟他。

首先，他要求o3-mini-high提供一些代码。结果在思考一分12秒之后，首先声明他试图计算的数量是无限的，但其实事实并非如此。此处o3-mini犯了个小错误。

不过它仍然提供了数值代码，确实粗略地近似了陶哲轩想要的数量（精确到小数点后一位）。

那时它意识到应该使用马尔可夫链理论来获得更精确的答案，于是先向 o3-mini-high询问理论公式，然后编写代码来计算结果。

有趣的是，它能够纠正提示中的一个基本错误： 把min写成了max 。

并且给了完美的代码，然后陶哲轩在此基础上对这一问题给出更精确的数值答案。

对此，陶哲轩的评价是：

总的来说， o3提供了相当不错的帮助 ；它犯了一个错误，我纠正了它，但我也犯了一个错误，它纠正了它。

而且以前我自己可能需要花一个小时的时间才能完成的代码，在大约十分钟内就生成、测试、修改并报告出来了。

也就在一周前，陶哲轩才点赞o3-mini不久：

请到「今天看啥」查看全文

推荐文章

新智元 · 刚刚，OpenAI史上最贵API上线！o1-pro比DeepSee-R1溢价千倍

11 小时前

爱可可-爱生活 · 从协作式自我对弈中学习认知边界查看图片 //@爱可可-爱生活-20250320074559

13 小时前

量子位 · AI一周写出ICLR研讨会论文！成果简洁有效获审稿人大赞

昨天

爱可可-爱生活 · xLSTM 7B：重新定义大语言模型的速度与效率标准查看图片-20250319073234

昨天

宝玉xp · //@同声翻译樱桃羊:优秀的科学家不会看轻人文社科。技术越进步，-20250318114147

2 天前

智囊团达人 · 看你的孩子，就知道你的婚姻好不好

7 年前

Python技术博文 · Python VS. MATLAB(3)

7 年前

格斗迷 · 中国格斗圈互相拆台？听听这位大佬怎么说

7 年前

Python新手营 · 试试用Python看穿非死不可，一般人我不告诉他~

7 年前

思路网 · 中秋借势文案，看这15个品牌就够了

7 年前

陶哲轩：o3-mini纠正了我一个数学错误，十分钟解决原本一小时才能完成的题目

正文

白交 发自 凹非寺 量子位 | 公众号 QbitAI

陶哲轩：o3-mini纠正了我的错误

请到「今天看啥」查看全文

白交发自凹非寺
量子位 | 公众号 QbitAI