专栏名称: 玩转VSCode

编程开发，业界资讯，以及 VS Code 的热门文章、使用技巧、插件推荐、插件开发攻略等，全部都可以在这里找到。带你玩转 VS Code！

目录

相关文章推荐

51好读 › 专栏 › 玩转VSCode

满血版o1深夜震撼上线，奥特曼怼脸演示超强推理！终极Pro版每月1450元

玩转VSCode · 公众号 · · 2024-12-06 09:18

正文

新智元报道

编辑：编辑部 HYZ

【新智元导读】就在刚刚，满血版o1震撼上线了！它首次将多模态和新的推理范式结合起来，更智能、更快速。同时推出的还有200美元/月的专业版ChatGPT Pro。奥特曼亲自和Jason Wei等人做了演示，同时放出的，还有49页完整论文。据网友预测，GPT-4.5可能也要来了。

果不其然，满血版o1终于正式上线了，而且还带来了地表最强o1 Pro Mode！

12天连更第一天，OpenAI随手扔了一个炸弹。

这次，Sam Altman本人正式出镜，和研究科学家Hyung Won Chung、Max，以及思维链提出者Jason Wei一起，在短短15分钟内速速完成了发布。

完整版o1是一个更快、更强大的推理模型，更擅长编码、数学和写作。

它可以上传图片，根据图片进行推理，给出更详细、更有用的回复。

给出一个人工鸟巢图像，模型就生成了安装手册

在多项基准测试中，完整版o1性能直接暴涨，在数学、代码、博士级别科学问题中，拿下了最优的成绩。

相较于o1-preview，o1数学性能提升了近30%，代码能力提升了27%。再看GPT-4o，几乎没有任何优势了。

更值得一提的是，o1在GPQA Diamond基准测试中，表现完全超越了人类专家。

现在，所有ChatGPT Plus用户，都已经可以用上o1了。

接下来，o1 Pro Mode更是强到令人发指，数学性能要比o1提升7.5%，在博士级别科学问题中，实现了79.3%的表现。

另外，o1模型还进行了更具挑战性的Worst of 4基准的评估。

它要求模型对每个问题进行四次尝试，只有在所有四次尝试中都给出正确答案，该问题才被视为真正「解决」。

如下所示，o1 Pro在数学、代码、博士级别科学问题上，均是性能最优的，而且o1比预览版的性能也大幅提升。

奥特曼直接总结了下今日发布两件大事：

o1，世界上最智能的模型，比o1-preview更智能、更快速、功能更多（如多模态）。现在已在ChatGPT中上线，很快将API中上线。

ChatGPT Pro，定价为200美元/月。无限制使用，使用o1时还有更智能的模式！

奥特曼幽默风趣地表示，「o1虽强，但还没有强大到宇宙派遣海啸来阻止的程度」。

德扑之父、OpenAI研究科学家Noam Brown表示，「o1（草莓模型）它可以做得更好，而不仅仅是计算『草莓』中有多少个r」。

现在，OpenAI正在处理更多计算密集型任务，还在给o1模型添加网页浏览、文件上传等工具，并且在努力将o1引入API。

他们还会为开发者提供一些新功能，比如结构化输出、函数调用、开发者消息、API图像理解功能等。

全新的智能体领域，也将很快开启。

明天上线的，就是为开发者打造的精彩内容。

现场演示

OpenAI的12天特别活动，将尝试一项迄今没有任何科技公司做过的事——在接下来的12个工作日，发布或演示一些新开发的新东西。

12天中的Day 1，正式拉开序幕。

奥特曼同OpenAI的三位员工一起，给大家带来了o1完整版的演示。整个过程不到20分钟，如奥特曼所说既快速又有趣。

满血版o1来了

首先，就是o1的完整版。

网友们反馈，希望o1-preview更智能、更迅速、支持多模态，并且更好地遵循指令。

据此OpenAI做了许多工作，做出了这个「科学家、工程师、程序员会很喜欢的模型」。

从GPT-4o到o1-preview再到o1，模型在数学、编程竞赛、GPQA Diamond方面方面性能暴涨，但奥特曼强调：我们非常关心的是原始智能，尤其是在编码性能上。

o1的独特之处在于，它是第一个在回应前会先思考的模型。这意味着，它比其他模型提供了更好、更详细、更准确的响应。

o1模型将很快取代o1-preview，因为它更快、更智能。

而在o1 Pro模式中，用户可以要求模型使用更多的计算资源，来解决一些最困难的问题。

对于已经在数学、编程和写作任务上将模型推向能力极限的用户，将感到惊叹。

响应更快

首先，o1的提升，并不只是解决非常难的数学和编程问题，OpenAI收到的关于o1-preview的最多的反馈是，它的速度太慢了——只是说hi，它都要思考10秒钟。

现在，这个问题已被解决。

OpenAI研究者打趣地说，这件事其实很好玩——它真的思考了，真的在关心你。

现在，如果你问一个简单问题，它就会很快回答，不会想太多了。但如果问一个很难的问题，它就会思考很长时间。

经过非常详细的真人评估之后，研究者们发现，它犯重大错误的频率，比o1-preview要低大约34%，同时思考速度提升了50%。

作为历史爱好者，Max给大家带来第一个演示。

左边是o1，右边是o1-preview。

提问：列出二世纪的罗马皇帝、在位时间，以及他们做过的事。

这个问题，GPT-4o在真正回答时，在相当一部分情况下会出错，而o1的响应速度o1-preview快了约60%。（目前，OpenAI正在将所有的GPU从o1-preview更换到o1）

可以看到，o1思考了大约14秒后给出答案，而o1-preveiw思考了大约33秒。

不少罗马皇帝只统治了6天、12天或一个月，所以回答出所有答案并不简单

多模态输入和图像理解

为了展示多模态输入和推理，研究者创建了下面这个问题，并附上了手绘图。

图中，太阳正在为太阳能板提供能量，旁边还有一个小型数据中心。在地球上，可以使用风冷或液冷来给GPU降温，但在太空中，只能将这种热量辐射到宇宙空间，因此需要泵装置

给o1的问题如下——

在未来，OpenAI可能会在太空环境中训练模型，功率数值是1吉瓦。

这是一个简化的数据中心空间示意图。对于任何细节假设，请提供相应的理由。如果受到了规范辐射的影响，你的任务是估算这个包含GPU的数据中心的辐射损失面积。在此过程中，还需要回答以下问题：

1）你如何处理太阳和宇宙辐射？

2）热力学第一定律如何应用到这个问题中？

拍照后将图片上传到模型，它很快给出了回答。

注意，这个题目中，有多个陷阱。

首先，一吉瓦的功率只是在纸面提到的，显然，模型很好地从图中捕捉到了这一点。

其次，研究者故意将这个问题描述得不够具体，他省略了冷却板的温度这类关键参数，专门用来考验模型处理模糊性问题的能力。

果然，o1发现了这一点！它识别出，这是一个未具体指定但很重要的参数，而且令人惊喜地选择了正确的温度范围，然后进行了后续分析。

这个答案，经过了拥有热力学博士学位的研究者的认证。

从这个演示可以看出，o1在做出一致且合理假设上表现非常优秀，已经具备了相当高的智能水平。

ChatGPT Pro上线，每月200美元

很多人，尤其是ChatGPT的重度用户使用得非常频繁，所以希望获得比每月20美元更多的计算资源。

因此，OpenAI推出了ChatGPT Pro——直接将订阅费用拉到了200美元/月。

Pro版可以无限制地访问模型，包括o1、4.0和高级语音模式等功能，此外，它还包含一个新功能——o1 Pro Mode。

o1是目前世界上最智能的模型，除了在Pro模式中使用的o1之外。对于人们遇到的最难的问题，o1 Pro模式可以让表现更进一步。

在处理高难度的数学、科学、编程问题时，o1 Pro尤其有用。

研究者提出了一个极有挑战性的化学问题，o1-preview通常会答错。

在这个问题中，模型被要求找到一种符合特定标准的蛋白质。挑战就在于，为了满足六个标准，每个都需要模型回忆起高度专业的化学知识。

而且，对于任何标准，都可能有数十种蛋白质符合。

因此，模型必须考虑所有候选选项，检查它们是否符合所有标准。

哪种蛋白质严格符合以下标准？

1. 前体多肽的长度为210到230个氨基酸残基

2. 编码该蛋白质的基因跨越32千个碱基对

3. 该基因位于X染色体的Xp22带

4. 信号肽由23个氨基酸残基组成

5. 该蛋白质促进细胞间粘附

6. 该蛋白质在维持神经系统特定部分的健康中起关键作用

在53秒内，模型就给出了正确答案，表现格外出色。

演示即将结束时，Jason Wei带来这个笑话：圣诞老人想让LLM解决一个数学问题，但怎样努力地prompt都不起作用，他是怎么解决的？

答案是——他使用了驯鹿强化学习（reindeer enforcement learning）。

这个梗已经被玩起来了。

GPT-4.5也要来？

请到「今天看啥」查看全文

推荐文章

经典人生感悟 · 这段话抄下来，享用终生！（值得收藏）

7 年前

虎扑 · “汉莎拜仁朝圣之旅”！目标慕尼黑，作为拜仁死忠的你准备好了吗

7 年前

医学界影像诊断与介入频道 · 女医生自助做胃镜视频曝光，网友高呼“吓尿了”！

7 年前

原来是西门大嫂 · 宋茜的逆天美颜，居然毁在了这上面...

7 年前

楼市投资圈 · 各大城市最新租房负担地图：有多少人在假装生活？

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!