专栏名称: 全球风口
全球科技创新产业专家、海银资本创始合伙人、得到app《全球创新260讲》专栏主理人王煜全的自媒体平台。
目录
相关文章推荐
科技美学官方  ·  小米最近的消息有点多 ·  昨天  
TopMarketing  ·  中秋特辑:2024中秋礼盒开箱实拍! ·  3 天前  
TopMarketing  ·  中秋特辑:2024中秋礼盒开箱实拍! ·  3 天前  
科技美学官方  ·  华为三折只是开始 近期爆料汇总 ·  6 天前  
51好读  ›  专栏  ›  全球风口

OpenAI「草莓」大模型再引争议,AI也开始挤牙膏!重要的是如何用好它!

全球风口  · 公众号  · AI 科技自媒体  · 2024-09-15 06:30

正文

 点击订阅,手把手教你掌握先进科技

(iOS用户请用电脑端打开小程序)

科技圈永远不缺新鲜事,这不,OpenAI 又搞了个大新闻!

9 月 13 日凌晨,OpenAI 带着最新大模型「草莓」(o1 系列) 闪亮登场,瞬间点燃了整个科技圈的热情。

官方宣称,「草莓」在推理能力、多语言能力和数学等领域表现出色,甚至超越了人类专家水平。

Sam Altman 更是难掩兴奋之情,称其为「OpenAI 最强大的模型」。消息一出,用户期待爆棚,仿佛 AI 即将迎来又一次革命。

你或许会好奇,「草莓」真的如此神奇吗?它究竟有哪些过人之处?

回答这些问题前,先分享一下我们的看法,其实AI大模型技术已经进入成熟阶段,它的进步必然还会带来更多的创新和应用,而这才是最为关键的地方。

正如蒸汽机、发动机发明后,它们的进步依旧重要,但真正创造最大价值的却是汽车、轮船、飞机,以及在这之上诞生的各种商业模式。

今晚的前哨AI小课,Tina就会带来用好AI发动机的新工具—Dify,教会你如何用好AI大模型创建专属应用,说不定这就会成为你开发自己的APP的起点。

接下来我们一起继续讨论一下OpenAI的「草莓」大模型。

1.深入技术上游:「草莓」大模型的秘密

「草莓」最大的亮点在于其「思维链」推理机制,即「思考后再回答」。

想象一下,当你向「草莓」提出一个问题时,它并不是简单地搜索数据库给出答案,而是像人类一样,先进行一番「深思熟虑」,才会最终给出答案。

根据官方发布的《o1 System Card》和实际测试结果看,「草莓」在回答问题前,会经历多轮内部对话,像是在自己跟自己辩论一样!

其实思维链并不是什么新技术,2022年AI大模型变革刚开始就已经被许多研究者发现,只是以前思维链需要用户主动设计,这次OpenAI将它变成大模型自己的工作。

2023年11月,前哨特训营PPT报告

打个比方,草莓模型会不断分析问题、推演逻辑、权衡各种可能性,然后再生成结果。这种「深思熟虑」的过程,让「草莓」在处理复杂问题时表现出更强的逻辑性和准确性。

那么,「草莓」的「知识库」又有多丰富呢?它使用了海量数据进行训练,包括大量公开数据、合作获取的专有数据和内部定制数据集,涵盖了推理、科学文献等多个领域。可以说,「草莓」是一位博览群书的「学霸」,拥有着强大的推理和对话能力。

与它的前辈 GPT-4o 相比,「草莓」在技术上主要有哪些创新呢?

更强的推理能力: 「思维链」推理机制,赋予了「草莓」更强大的逻辑推理和问题求解能力,它能像侦探一样,抽丝剥茧,找到真相。

更好的多语言能力: 「草莓」不仅是英语「学霸」,还精通多国语言!基于人工翻译的 MMLU 多语言测试结果显示,「草莓」在多种语言上的表现都优于 GPT-4o,堪称「语言天才」。

更强的数学表现: 「草莓」在 STEM 领域的基准测试中取得了优异成绩,例如在 AIME(美国数学邀请赛)考试中的平均得分高达 74%,而 GPT-4o 只有 12%!这相当于进入了全美顶尖高中生的行列,甚至超过了美国数学奥林匹克的入围标准。

上下滚动,看草莓如何解题

然而,「草莓」也并非完美无瑕,它依然面临着一些技术上的挑战:

「思维链」的可解释性: 目前,「思维链」的内部运作机制仍缺乏透明度,我们无法完全理解它的「思考过程」,这在某些需要高度可信的应用场景中可能会成为障碍。

幻觉问题: 尽管官方声称「草莓」的幻觉问题有所减少,但实际测试中仍发现一些「编造」信息的现象,再比如虽然数学能力大幅提升「9.11>9.8」的问题还会出现。

2.新模型新争议:巨大进步or工程半成品

「草莓」虽然强大,但也有很多限制,价格高昂和诸多功能不完善,让许多开发者对它仍有不满。

拿价格来说,这次发布的GPT-o1 API价格是 4o 的 6 倍(最大),这已经是一笔不小的开销,更让开发者们担忧的是其按「思考过程」计费的模式,简单说就是AI自己思考的过程也要向你收费。

OpenAI o1 API收费标准

这意味着最后回答一个「好」,只要它自己「想了很多」,那也可能问你要价不菲,国内外专业人士做了测试对比,相较4o的收费实际会贵上10—200倍不等

此外,「草莓」在功能和性能上也存在一些不足。例如,在 ChatGPT 网页版中,「草莓」不支持联网、画图等功能;在 API 中,不支持 system、tool 等字段和 json mode、结构化输出等方法。

虽然大家对草莓的数学、编程能力进步非常赞赏,面对各种不足也不禁发问「草莓是一个新模型,还是说4o工程改良版呢?

各路人士做出多种猜测,有人认为它背后是将Agent架构和思维链推理组合的成果,有人认为这次就是专门面向数学和推理做了个新的微调模型。

由于大模型本身的黑盒特性,外界却是很难确认各种猜测的准确性,我们唯一可以确定的是AI大模型的迭代还在继续,考虑到AI算力持续下降的趋势,明年9月或许又会是一波新的AI应用爆发的时点。

3.让大模型的子弹再飞一会

「草莓」的发布,无疑是 AI 领域的一件大事。它在技术上取得了突破,但也存在明显的局限性。对于「草莓」的未来,我们应该保持冷静。

一方面,「草莓」的推理能力和多语言能力的提升,为 AI 应用打开了新的可能性。例如,在教育、科研、医疗等领域,「草莓」可以辅助人类完成更复杂的任务,提高效率,有了更多应用的空间。

另一方面,「草莓」的高昂价格、限制重重,既是商业化的难题,也是工程测试,原型开发的大好时机。

AI 技术的发展,不能只追求性能的提升,更要关注商业、应用!让大模型的子弹再飞一会,为什么不利用这个时间做好准备,等下一轮风口到来,一起顺势而行?

今晚8点,前哨AI小课就会带来免费直播教学,让你搞懂Dify工作流如何使用,学会用好大模型这个引擎,构造自己的AI应用原型!

↓ 点击订阅,手把手教你掌握先进科技

iOS用户请用电脑端打开小程序