专栏名称: 全球风口

全球科技创新产业专家、海银资本创始合伙人、得到app《全球创新260讲》专栏主理人王煜全的自媒体平台。

OpenAI「草莓」大模型再引争议，AI也开始挤牙膏！重要的是如何用好它！

全球风口 · 公众号 · AI 科技自媒体 · 2024-09-15 06:30

主要观点总结

本文介绍了OpenAI最新发布的大模型“草莓”（o1系列），官方宣称其在推理能力、多语言能力和数学等领域表现出色，甚至超越人类专家水平。文章深入探讨了“草莓”模型的亮点，包括其“思维链”推理机制、使用海量数据进行训练、丰富的知识库以及在技术和商业化方面面临的挑战。同时，文章也指出了“草莓”模型的局限性，如高昂的价格、功能不完善等问题，并对其未来应用和发展趋势进行了展望。

关键观点总结

关键观点1: OpenAI发布最新大模型‘草莓’（o1系列），在多个领域表现出色。

OpenAI发布了最新大模型“草莓”，该模型在推理能力、多语言能力和数学等领域展现出卓越性能，甚至超越人类专家水平。

关键观点2: ‘草莓’模型的亮点包括‘思维链’推理机制和多语言处理能力。

'草莓'模型的最大亮点在于其‘思维链’推理机制，能够在回答问题前进行多轮内部对话，像人类一样进行深思熟虑。此外，该模型还具备强大的多语言处理能力，能够在多种语言上表现出色。

关键观点3: ‘草莓’模型面临技术挑战和商业化问题。

'草莓'模型虽然强大，但也面临着一些技术挑战，如'思维链'的可解释性、幻觉问题等。此外，该模型的价格高昂和功能不完善也限制了其应用和发展。

关键观点4: AI大模型的迭代和发展趋势。

AI大模型的迭代还在继续，未来可能会出现更多的新技术和创新应用。同时，随着AI算力的下降，未来可能会有更多的AI应用爆发。对于‘草莓’的未来，人们应该保持冷静，关注其在商业化、应用方面的发展。

正文

▲ 点击订阅，手把手教你掌握先进科技

（iOS用户请用电脑端打开小程序）

科技圈永远不缺新鲜事，这不，OpenAI 又搞了个大新闻！

9 月 13 日凌晨，OpenAI 带着最新大模型「草莓」(o1 系列) 闪亮登场，瞬间点燃了整个科技圈的热情。

官方宣称，「草莓」在推理能力、多语言能力和数学等领域表现出色，甚至超越了人类专家水平。

Sam Altman 更是难掩兴奋之情，称其为「OpenAI 最强大的模型」。消息一出，用户期待爆棚，仿佛 AI 即将迎来又一次革命。

你或许会好奇，「草莓」真的如此神奇吗？它究竟有哪些过人之处？

回答这些问题前，先分享一下我们的看法，其实AI大模型技术已经进入成熟阶段，它的进步必然还会带来更多的创新和应用，而这才是最为关键的地方。

正如蒸汽机、发动机发明后，它们的进步依旧重要，但真正创造最大价值的却是汽车、轮船、飞机，以及在这之上诞生的各种商业模式。

今晚的前哨AI小课，Tina就会带来用好AI发动机的新工具—Dify，教会你如何用好AI大模型创建专属应用，说不定这就会成为你开发自己的APP的起点。

接下来我们一起继续讨论一下OpenAI的「草莓」大模型。

1.深入技术上游：「草莓」大模型的秘密

「草莓」最大的亮点在于其「思维链」推理机制，即「思考后再回答」。

想象一下，当你向「草莓」提出一个问题时，它并不是简单地搜索数据库给出答案，而是像人类一样，先进行一番「深思熟虑」，才会最终给出答案。

根据官方发布的《o1 System Card》和实际测试结果看，「草莓」在回答问题前，会经历多轮内部对话，像是在自己跟自己辩论一样！

其实思维链并不是什么新技术，2022年AI大模型变革刚开始就已经被许多研究者发现，只是以前思维链需要用户主动设计，这次OpenAI将它变成大模型自己的工作。

2023年11月，前哨特训营PPT报告

打个比方，草莓模型会不断分析问题、推演逻辑、权衡各种可能性，然后再生成结果。这种「深思熟虑」的过程，让「草莓」在处理复杂问题时表现出更强的逻辑性和准确性。

那么，「草莓」的「知识库」又有多丰富呢？它使用了海量数据进行训练，包括大量公开数据、合作获取的专有数据和内部定制数据集，涵盖了推理、科学文献等多个领域。可以说，「草莓」是一位博览群书的「学霸」，拥有着强大的推理和对话能力。

与它的前辈 GPT-4o 相比，「草莓」在技术上主要有哪些创新呢？

更强的推理能力: 「思维链」推理机制，赋予了「草莓」更强大的逻辑推理和问题求解能力，它能像侦探一样，抽丝剥茧，找到真相。

更好的多语言能力: 「草莓」不仅是英语「学霸」，还精通多国语言！基于人工翻译的 MMLU 多语言测试结果显示，「草莓」在多种语言上的表现都优于 GPT-4o，堪称「语言天才」。

更强的数学表现: 「草莓」在 STEM 领域的基准测试中取得了优异成绩，例如在 AIME（美国数学邀请赛）考试中的平均得分高达 74%，而 GPT-4o 只有 12%！这相当于进入了全美顶尖高中生的行列，甚至超过了美国数学奥林匹克的入围标准。

上下滚动，看草莓如何解题

然而，「草莓」也并非完美无瑕，它依然面临着一些技术上的挑战:

「思维链」的可解释性: 目前，「思维链」的内部运作机制仍缺乏透明度，我们无法完全理解它的「思考过程」，这在某些需要高度可信的应用场景中可能会成为障碍。

幻觉问题: 尽管官方声称「草莓」的幻觉问题有所减少，但实际测试中仍发现一些「编造」信息的现象，再比如虽然数学能力大幅提升「9.11>9.8」的问题还会出现。

2.新模型新争议：巨大进步or工程半成品

「草莓」虽然强大，但也有很多限制，价格高昂和诸多功能不完善，让许多开发者对它仍有不满。

拿价格来说，这次发布的GPT-o1 API价格是 4o 的 6 倍（最大），这已经是一笔不小的开销，更让开发者们担忧的是其按「思考过程」计费的模式，简单说就是AI自己思考的过程也要向你收费。

OpenAI o1 API收费标准

这意味着最后回答一个「好」，只要它自己「想了很多」，那也可能问你要价不菲，国内外专业人士做了测试对比，相较4o的收费实际会贵上10—200倍不等。

此外，「草莓」在功能和性能上也存在一些不足。例如，在 ChatGPT 网页版中，「草莓」不支持联网、画图等功能；在 API 中，不支持 system、tool 等字段和 json mode、结构化输出等方法。

虽然大家对草莓的数学、编程能力进步非常赞赏，面对各种不足也不禁发问「草莓是一个新模型，还是说4o工程改良版呢？」

各路人士做出多种猜测，有人认为它背后是将Agent架构和思维链推理组合的成果，有人认为这次就是专门面向数学和推理做了个新的微调模型。

由于大模型本身的黑盒特性，外界却是很难确认各种猜测的准确性，我们唯一可以确定的是AI大模型的迭代还在继续，考虑到AI算力持续下降的趋势，明年9月或许又会是一波新的AI应用爆发的时点。

3.让大模型的子弹再飞一会

「草莓」的发布，无疑是 AI 领域的一件大事。它在技术上取得了突破，但也存在明显的局限性。对于「草莓」的未来，我们应该保持冷静。

一方面，「草莓」的推理能力和多语言能力的提升，为 AI 应用打开了新的可能性。例如，在教育、科研、医疗等领域，「草莓」可以辅助人类完成更复杂的任务，提高效率，有了更多应用的空间。

另一方面，「草莓」的高昂价格、限制重重，既是商业化的难题，也是工程测试，原型开发的大好时机。

AI 技术的发展，不能只追求性能的提升，更要关注商业、应用！让大模型的子弹再飞一会，为什么不利用这个时间做好准备，等下一轮风口到来，一起顺势而行？

今晚8点，前哨AI小课就会带来免费直播教学，让你搞懂Dify工作流如何使用，学会用好大模型这个引擎，构造自己的AI应用原型！

↓ 点击订阅，手把手教你掌握先进科技

（iOS用户请用电脑端打开小程序）