专栏名称: 大数据文摘
普及数据思维,传播数据文化
目录
相关文章推荐
国家数据局  ·  专家解读 | ... ·  3 天前  
数据派THU  ·  「颠覆性」科学没有衰落,谷歌 AI ... ·  6 天前  
51好读  ›  专栏  ›  大数据文摘

满血版 o1 上线两天,被网友玩出来了 10 个疯狂用法

大数据文摘  · 公众号  · 大数据  · 2024-12-09 17:30

正文

大数据文摘受权转载自夕小瑶科技说


家人们!OpenAI o1 满血版(o1 Pro)大家用上了吗!



作为 OpenAI 的 12 天直播计划的首位登场重量嘉宾,o1 满血版本,可以说是遥遥领先!在代码和数学领域远超 o1-preview!


而且,o1 Pro 思考速度也比 o1-preview 快 50%,效率提高 34%。最重要的是,o1 和 o1 pro 上还带上了视觉功能,上传图片就能做视觉推理里。


满血版o1和o1 Pro来啦!200美元/月无限使用!OpenAI第一天就放了王炸!

总而言之,确实值得 OpenAI 拿出来作为首秀 ~


而 o1 满血版上线仅仅两天,网友们已经压榨它压榨的灰常到位!!已经玩出花了 hh,奶茶带大家一起看看网友们的花活 ~


01 从截图还原复现网站


网友为了测试代码生成能力,截取了一个网站的屏幕截图,让流行的几个大语言模型根据网页截图写代码复现网站 ~


让我们看看各家的表现!


o1 普通版:


嗯 ~ 中规中矩,整体表现还不错!


最新版本的 Gemini-1206:



明显实现的功能更多了!


o1 满血版



原图网友没放出来,奶茶去网上找了下,原图大概是酱个样子:


虽然都不是很像啊 hh 但是 o1 Pro 明显完成了更多的功能 ~


02 o1 pro + midjourney + bolt.new 开发游戏


网友尝试探索一种新的创作流程:首先,他们利用 Midjourney 生成图片中的人物和场景。接着,在 Photoshop 中进行微调,去除背景并扩展场景背景,为了适应游戏关卡的需求。


此外,他们从 Artlist 中精选游戏音效和音乐,以增强游戏体验。


最后,他们使用一系列精心挑选的提示词,引导 o1 生成一个完整的游戏。提示词如图所示:


接着,网友们采用 StackBlitz/Bolt 作为开发环境,成功生成了游戏。如视频中所展示:


03 做奥林匹克数学竞赛中最难的题目


网友又让 o1Pro 去做奥赛题!


如下图所示,o1 Pro 仅用时 6 分 48 秒就成功解答了 2006 年国际数学奥林匹克竞赛(IMO)的第三题——当年公认难度最高的题目。


2006 年全球约 500 名 19 岁以下的顶尖数学学生中,仅有 28 人能够完全解答此题……他们拥有 4 个半小时的时间来攻克……而 6 名美国队成员中无一人能够解决这个问题……


网友们尝试使用其他所有模型(包括 o1)来解决这个问题,结果 o1 Pro 是唯一一个大语言模型给出了正确答案。


04 搞定数学教授认为解不了的数独谜题


大家会做数独吗!先给大家上一道题尝尝咸淡!


嘶,奶茶尝试做了下,根本不会啊。。


网友让 o1-Pro 来帮忙解决!


虽然解题时出了点小差错,但它能自己调整过来。在处理第五行的时候,它通过排除 R5C7=1,巧妙地解决了第七列的冲突,这一步可能是找到答案的关键。整个过程用了 5 分半钟,最后 o1-Pro 成功解开了数独谜题。



这位网友还提到,之前数学教授曾经和他说,Transformer 这类的大模型是不是可能解决数独谜题的。。。那 o1 Pro 的表现是不是 piapia 打脸了


但是,也有人认为并没有打脸,即使大语言模型解开了数独,但是他们做出来的,永远都不是真的“会做”。


05 根据流程图生成代码


o1-Pro 不是新增了图像输入功能嘛 ~


网友们发现只需上传一张流程图,即可请求生成构建该流程图的高质量代码。如下图所示,上传一个特别潦草的流程图:


o1 Pro 给生成了对应的代码,虽然生成的代码可能不是完美无缺的,但相较于 4o,它的表现已经有了显著的提升:



06 面向网络漫画编程


网友们又尝试,让 o1 Pro 根据 搞怪漫画写代码!



给出以下提示:把这个变成现实。由于我不会编程,所以需要一个图形界面和清晰的使用说明。这意味着你需要给我一个完整可用的软件 。


o1 Pro 用了不到 15 分钟就完成了,而且没有陷入任何常见的大语言模型循环。



07 解决当日报纸发的文字联接题


纽约时报每日都会发布一个 Connections 谜题,这个谜题是一个基于文字关联的益智游戏,其核心玩法是:玩家面前会有 16 个词语(通常是英文词),这 16 个词看似杂乱无章,但其中暗藏 4 组关联,每组由 4 个有共同点的词语组成。


例如,一组 4 个词可能都与某种运动类型有关,另一组 4 个词可能都和特定的电影类型相关,或共通的主题可能是食物类别、历史事件、著名人物姓名、品牌名或日常物品等等。玩家需要透过审视与思考,找出这 4 个隐形群组。


昨天的每日谜题是这样的:


o1 Pro 竟然在 14 秒内正确完成了这个谜题!



08 解决复杂计算问题


网友对 o1 Pro 的复杂问题解决能力进行了测试,他们提出了一个挑战:计算表达式 (x - 14)^10,其中 x 代表答案中的元音字母数量。


o1 Pro 很争气!!!



那没有对比,就没有伤害,咱看看其他的大模型!


嘶,这哥俩直接算迷糊了:



GPT-4 最离谱!我用脚指头算也知道不是 0!四舍五入 GPT-4 不如我的脚指头



而原来的 o1 确实算得又慢又错很大!



09 制作百战天虫


网友们再次向 o1 Pro 发起挑战,要求它制作一款类似《百战天虫》的游戏。不负众望,o1 Pro 成功地完成了这项任务!!



10 更强的写作能力


网友们还发现,o1 Pro 在掌握需要深度推理的写作风格方面表现出惊人的能力——不仅仅是逻辑论证(例如:辩论海事习俗如何可能使现代贸易法规失效),还包括在诗歌、歌词、双关语、笑话和剧本中把握节奏和韵律。



这是一首歌的歌词。仔细思考其中隐藏的模式,然后写出两个在模式上完全一致的新诗节。之后解释为什么这些新诗节符合原有模式。

结语


虽然网友们“方方面面”地验证了 o1 Pro 强大的进步!


氮素,奶茶还发现了 o1 Pro 不少翻车的例子 hh!


比如:现在几点了?o1 虽然会算数,但是不会读表哈哈哈!


大家用 o1 Pro 怎么样,欢迎评论区和我们一起讨论 ~

参考文献
[1]https://x.com/dr_cintas/status/1865461386031120740


租售GPU算力
租:4090/A800/H800/H100
售:现货H100/H800

特别适合企业级应用
扫码了解详情☝


点「在看」的人都变好看了哦!