专栏名称: 全球风口
全球科技创新产业专家、海银资本创始合伙人、得到app《全球创新260讲》专栏主理人王煜全的自媒体平台。
目录
相关文章推荐
中国日报网  ·  神舟十八号航天员乘组首次见面会在北京举行 ·  6 天前  
中国日报网  ·  神舟十八号航天员乘组首次见面会在北京举行 ·  6 天前  
南京新闻  ·  周红波会见中兴通讯董事长李自学 ·  6 天前  
南京新闻  ·  周红波会见中兴通讯董事长李自学 ·  6 天前  
黄建同学  ·  这里除了Cosmos还有一个非常重要的项目G ... ·  6 天前  
李楠或kkk  ·  这个重量能pk ... ·  6 天前  
51好读  ›  专栏  ›  全球风口

OpenAI「草莓」大模型再引争议,AI也开始挤牙膏!重要的是如何用好它!

全球风口  · 公众号  · AI 科技自媒体  · 2024-09-15 06:30

主要观点总结

本文介绍了OpenAI最新发布的大模型“草莓”(o1系列),官方宣称其在推理能力、多语言能力和数学等领域表现出色,甚至超越人类专家水平。文章深入探讨了“草莓”模型的亮点,包括其“思维链”推理机制、使用海量数据进行训练、丰富的知识库以及在技术和商业化方面面临的挑战。同时,文章也指出了“草莓”模型的局限性,如高昂的价格、功能不完善等问题,并对其未来应用和发展趋势进行了展望。

关键观点总结

关键观点1: OpenAI发布最新大模型‘草莓’(o1系列),在多个领域表现出色。

OpenAI发布了最新大模型“草莓”,该模型在推理能力、多语言能力和数学等领域展现出卓越性能,甚至超越人类专家水平。

关键观点2: ‘草莓’模型的亮点包括‘思维链’推理机制和多语言处理能力。

'草莓'模型的最大亮点在于其‘思维链’推理机制,能够在回答问题前进行多轮内部对话,像人类一样进行深思熟虑。此外,该模型还具备强大的多语言处理能力,能够在多种语言上表现出色。

关键观点3: ‘草莓’模型面临技术挑战和商业化问题。

'草莓'模型虽然强大,但也面临着一些技术挑战,如'思维链'的可解释性、幻觉问题等。此外,该模型的价格高昂和功能不完善也限制了其应用和发展。

关键观点4: AI大模型的迭代和发展趋势。

AI大模型的迭代还在继续,未来可能会出现更多的新技术和创新应用。同时,随着AI算力的下降,未来可能会有更多的AI应用爆发。对于‘草莓’的未来,人们应该保持冷静,关注其在商业化、应用方面的发展。


正文

 点击订阅,手把手教你掌握先进科技

(iOS用户请用电脑端打开小程序)

科技圈永远不缺新鲜事,这不,OpenAI 又搞了个大新闻!

9 月 13 日凌晨,OpenAI 带着最新大模型「草莓」(o1 系列) 闪亮登场,瞬间点燃了整个科技圈的热情。

官方宣称,「草莓」在推理能力、多语言能力和数学等领域表现出色,甚至超越了人类专家水平。

Sam Altman 更是难掩兴奋之情,称其为「OpenAI 最强大的模型」。消息一出,用户期待爆棚,仿佛 AI 即将迎来又一次革命。

你或许会好奇,「草莓」真的如此神奇吗?它究竟有哪些过人之处?

回答这些问题前,先分享一下我们的看法,其实AI大模型技术已经进入成熟阶段,它的进步必然还会带来更多的创新和应用,而这才是最为关键的地方。

正如蒸汽机、发动机发明后,它们的进步依旧重要,但真正创造最大价值的却是汽车、轮船、飞机,以及在这之上诞生的各种商业模式。

今晚的前哨AI小课,Tina就会带来用好AI发动机的新工具—Dify,教会你如何用好AI大模型创建专属应用,说不定这就会成为你开发自己的APP的起点。

接下来我们一起继续讨论一下OpenAI的「草莓」大模型。

1.深入技术上游:「草莓」大模型的秘密

「草莓」最大的亮点在于其「思维链」推理机制,即「思考后再回答」。

想象一下,当你向「草莓」提出一个问题时,它并不是简单地搜索数据库给出答案,而是像人类一样,先进行一番「深思熟虑」,才会最终给出答案。

根据官方发布的《o1 System Card》和实际测试结果看,「草莓」在回答问题前,会经历多轮内部对话,像是在自己跟自己辩论一样!

其实思维链并不是什么新技术,2022年AI大模型变革刚开始就已经被许多研究者发现,只是以前思维链需要用户主动设计,这次OpenAI将它变成大模型自己的工作。

2023年11月,前哨特训营PPT报告

打个比方,草莓模型会不断分析问题、推演逻辑、权衡各种可能性,然后再生成结果。这种「深思熟虑」的过程,让「草莓」在处理复杂问题时表现出更强的逻辑性和准确性。

那么,「草莓」的「知识库」又有多丰富呢?它使用了海量数据进行训练,包括大量公开数据、合作获取的专有数据和内部定制数据集,涵盖了推理、科学文献等多个领域。可以说,「草莓」是一位博览群书的「学霸」,拥有着强大的推理和对话能力。

与它的前辈 GPT-4o 相比,「草莓」在技术上主要有哪些创新呢?

更强的推理能力: 「思维链」推理机制,赋予了「草莓」更强大的逻辑推理和问题求解能力,它能像侦探一样,抽丝剥茧,找到真相。

更好的多语言能力: 「草莓」不仅是英语「学霸」,还精通多国语言!基于人工翻译的 MMLU 多语言测试结果显示,「草莓」在多种语言上的表现都优于 GPT-4o,堪称「语言天才」。

更强的数学表现: 「草莓」在 STEM 领域的基准测试中取得了优异成绩,例如在 AIME(美国数学邀请赛)考试中的平均得分高达 74%,而 GPT-4o 只有 12%!这相当于进入了全美顶尖高中生的行列,甚至超过了美国数学奥林匹克的入围标准。

上下滚动,看草莓如何解题

然而,「草莓」也并非完美无瑕,它依然面临着一些技术上的挑战:

「思维链」的可解释性: 目前,「思维链」的内部运作机制仍缺乏透明度,我们无法完全理解它的「思考过程」,这在某些需要高度可信的应用场景中可能会成为障碍。

幻觉问题: 尽管官方声称「草莓」的幻觉问题有所减少,但实际测试中仍发现一些「编造」信息的现象,再比如虽然数学能力大幅提升「9.11>9.8」的问题还会出现。

2.新模型新争议:巨大进步or工程半成品

「草莓」虽然强大,但也有很多限制,价格高昂和诸多功能不完善,让许多开发者对它仍有不满。

拿价格来说,这次发布的GPT-o1 API价格是 4o 的 6 倍(最大),这已经是一笔不小的开销,更让开发者们担忧的是其按「思考过程」计费的模式,简单说就是AI自己思考的过程也要向你收费。

OpenAI o1 API收费标准

这意味着最后回答一个「好」,只要它自己「想了很多」,那也可能问你要价不菲,国内外专业人士做了测试对比,相较4o的收费实际会贵上10—200倍不等

此外,「草莓」在功能和性能上也存在一些不足。例如,在 ChatGPT 网页版中,「草莓」不支持联网、画图等功能;在 API 中,不支持 system、tool 等字段和 json mode、结构化输出等方法。

虽然大家对草莓的数学、编程能力进步非常赞赏,面对各种不足也不禁发问「草莓是一个新模型,还是说4o工程改良版呢?

各路人士做出多种猜测,有人认为它背后是将Agent架构和思维链推理组合的成果,有人认为这次就是专门面向数学和推理做了个新的微调模型。

由于大模型本身的黑盒特性,外界却是很难确认各种猜测的准确性,我们唯一可以确定的是AI大模型的迭代还在继续,考虑到AI算力持续下降的趋势,明年9月或许又会是一波新的AI应用爆发的时点。

3.让大模型的子弹再飞一会

「草莓」的发布,无疑是 AI 领域的一件大事。它在技术上取得了突破,但也存在明显的局限性。对于「草莓」的未来,我们应该保持冷静。

一方面,「草莓」的推理能力和多语言能力的提升,为 AI 应用打开了新的可能性。例如,在教育、科研、医疗等领域,「草莓」可以辅助人类完成更复杂的任务,提高效率,有了更多应用的空间。

另一方面,「草莓」的高昂价格、限制重重,既是商业化的难题,也是工程测试,原型开发的大好时机。

AI 技术的发展,不能只追求性能的提升,更要关注商业、应用!让大模型的子弹再飞一会,为什么不利用这个时间做好准备,等下一轮风口到来,一起顺势而行?

今晚8点,前哨AI小课就会带来免费直播教学,让你搞懂Dify工作流如何使用,学会用好大模型这个引擎,构造自己的AI应用原型!

↓ 点击订阅,手把手教你掌握先进科技

iOS用户请用电脑端打开小程序