专栏名称: 秋叶PPT
你爱学习,爱动手,爱分享?关注我们就对了!PPT、Excel、Word、职场成长,每天早上三分钟,碎片时间学起来!
目录
相关文章推荐
旁门左道PPT  ·  速看!!删无!!! ·  3 天前  
阿昆的科研日常  ·  PPT如何保存高质量论文插图? ·  5 天前  
51好读  ›  专栏  ›  秋叶PPT

ChatGPT输惨了?智力堪比博士的草莓AI大模型强到可怕!

秋叶PPT  · 公众号  · PPT  · 2024-11-05 08:17

正文

关注【秋叶 AI 知识星球】

回复关键词【6】

领取 50+精选 AI 神器!


作者:子珊

编辑:若凡



大家好,这里是秋叶编辑部,我是子珊~

前段时间,人工智能研究公司 OpenAI 继 ChatGPT 系列智能聊天程序后,

又发布了两款最近的大语言模型 o1-preview 和 o1-mini,

也就是此前备受关注的「草莓大模型」


千呼万唤始出来,这个被 OpenAI 造势已久的绝密草莓终于「熟了」!

关于「草莓大模型」为什么没有延续 GPT 系列的命名方法,OpenAI 对此解释说:

「对于复杂的推理任务来说,这是一个重大的进步,代表了 AI 能力的一个新的水平。

因此,我们将计数器重置为 1,并将这个模型系列命名为 OpenAI o1。」


也就是说,o 系列与 GPT 系列是并列的,

OpenAI 公司对草莓大模型的重视程度可见一斑~


和之前的 GPT 大模型相比,o1 模型的推理能力有了显著提升,尤其是在数据分析、数学和编程方面。

不过,此次发布的 o1-preview 暂时只是一个预览版,功能还并不完善,

o1-mini 则是一个更小、更便宜的版本,能够适用的应用场景也相对局限。

但尽管如此,OpenAI 称,这仍是目前为止推理能力最好的模型!

(图源:OpenAI 官网)

根据 OpenAI 官方公布测试的数据:

o1 在编程竞赛题目(Codeforces)中排名达到第 89 百分位,

在美国数学奥林匹克竞赛(AIME)的资格赛中,位列全美前 500 名学生之列,

并在物理、生物和化学问题的基准测试(GPQA)中,首次超过了人类博士水平的准确率!


那么,o1 的推理能力真有官方说的那么厉害吗?

产品发布后,网友们迫不及待地对它开始了「测试」~

比如,通过输入案件的证人证词信息,请 o1 对凶手进行推理:

(图源:硅星人)

这种简单的推理题目,对 o1 来说自然不在话下,

在这次测试中,它仅用 6 秒就分析出了四位证人的证词真假与否。



新机词挖一此莫禾多此(真相只有一个)!

凶手就是杰克!


看来,草莓大模型在推理分析类任务的处理上的确很有实力!

但它也并非在所有方面都能碾压其他大模型,

比如,在文本生成这类文科向的任务上,GPT-4o 仍然保持优势。

这么来看,GPT 更像是一个文科学霸,而 o1 是位理科学霸~

 

但这位偏科的「理科学霸」在 9 月发布之后,没有如预期的那样收获满堂喝彩,

而是受到了大众犀利而谨慎的审视。

原来,为了获得更好的推理能力, o1 采用了一种名为「思维链」的方案~        

即把一个复杂的问题拆解为若干子问题,

在作出回答响应之前,需要先在其内部进行一番复杂分析,再寻找出最合理的解决方案。


不同于 GPT 面对信息时的「脱口而出」,

这些多出来的环节,让 o1 模型的响应速度比其他模型慢了许多。

而对于已经习惯了「及时响应」的大部分用户来说,

这种突然慢下来的体验,固然显得不那么友好了。


但无论如何,「草莓」所代表的是一种完全不同于 GPT 背后运行逻辑的全新范式,

不再和传统人工智能一样,仅仅追求结果的正确,


而是侧重于关注 AI 推理过程中的每个具体步骤,遵循更加严密的逻辑和循序渐进的过程。



短短 2 年,AI 都更新迭代无数次,现如今的 AI 大模型也百花齐放,AI 技术日新月异,
 
在 AI 时代,作为 AI 的操控者,我们更要好好把握时机,掌握 AI 技能不仅会成为未来的趋势,更能成为我们人生升职跃迁的敲门砖!
 
别再犹豫了,现在加入《秋叶 AI 设计实战集训营》,让专业实战派导师带你早日上手 AI 设计,提升职场竞争力!
 
 原价 99 元 
今天 只需 3.3 元!
秋叶实战派导师教学
✅专业助教团随时答疑
🎁报名还送 AI 设计工具(无需下载直接用)
👇👇👇

报名后自动弹出班主任微信
务必扫码添加才能解锁课程+领取福利!


 


🪐

点击卡片关注【秋叶 AI 知识星球】
回复关键词【6】
领取 50+精选 AI 神器!
↓↓↓