专栏名称: APPSO

让智能手机更好用的秘密。

震荡之后的 OpenAI 发布会：没有惊喜，还是奥特曼的男频爽文

APPSO · 公众号 · app · 2024-10-02 16:26

正文

在原始初创高管全部出走之后，对 OpenAI 的质疑、批评不绝于耳。

在一片唱衰声中，OpenAI 打起精神，办了今年巡回式 DevDay 的第一场，发布了一系列功能更新，包括一些价格优惠。

对于开发者来说，这些更新并非毫无价值。而对于最近一直在吃瓜 OpenAI 人事地震的围观群众来说，这是属于 Sam Altman 的爽文里的又一个章节。

更新、降价全都有，但不多

去年的开发者大会上，多模态是关键词，今年则是实时+推理。

主打低延迟、多模态的 Realtime API 开放公测，由 4o 模型支持，配备六种预设声音进行自然的语音对话，类似于「每个人自己的 ChatGPT 高级语音模式」。

每分钟音频输入约 0.06 美元，每分钟音频输出约 0.24 美元。目前刚刚开放，实测不多，从 OpenAI 发布的官方演示来看，识别和应答确实流畅，延迟几乎无感。

在发布会现场，工作人员还演示了一下如何利用它强大的应答能力，订购了四百只草莓甜品，复杂任（整）务（活）也流利应答。

视频来自X用户@jerryjliu0

从演示上看，这对许多专注或是涉及语音交互的产品而言是个好消息，比如语言学习、聊天机器人等等，原本的文本-语音链条可以简化成一个 API 的调用。当然现在才刚刚开放公测，需要后续观察稳定性问题。

除了 Realtime API 之外，这次还发布了图像微调，在文本微调的基础上，又多了一项更可控的实现模型自主微调的方式。

只需 100 张图像就能提高 GPT-4o 在视觉任务上的性能，甚至在处理大量文本和图像数据时也能提高性能。

在官方演示中，特别提及了自动驾驶、医学影像分析两个领域，对它们而言，图像是更有意义的训练数据，能够明显提高模型的视觉理解能力。

在 10 月 31 号之前，OpenAI 给使用 4o 进行图像微调的开发者们，每天最多一百万的免费 token。活动期结束后，每一百万的 token 定价是 25 美元。

如果说这只算是一点限定时间的小优惠，那么这次引入的提示缓存（prompt caching），则能够实打实地降低成本了。

其实八月的时候 Anthropic 推出过类似的功能。在开发过程中，总会有不同的 API 调用相同的上下文。在引入提示缓存后，通过记住常用的提示，来加速推理模型生成输出，从而加快使用时间、降低成本。同款模型的基础上，成本可以减少一半。

另外亮相的功能则是模型蒸馏，基于 GPT-4o 和 o1-preview 等高级模型，可以定制出更小、更便宜的定制模型，有利于在开发过程中平衡性能和成本。

屠龙少年四个字，已经说倦了

这次的开发者大会，相比去年低调了不少。去年除了有 Sam Altman 像乔布斯一样，站在台上侃侃而谈，还有微软的 CEO 出面撑场。

不过低调有低调的好处，不知道还有多少人记得：去年就是在开发者大会办完 11 天之后，OpenAI 董事会突然解雇了 Sam Altman，引发第一次人事地震，被称为 OpenAI 内部宫斗。

而上个月，Mira Murati、Bob McGrew，以及 Barret Zoph 都离开了 OpenAI。算上来，无论是当初支持 Sam Altman 的人，还是反对他的人，现在都离开了这家公司。

又是一场多事之秋。

这次的 DevDay 之后，不少评论说这是给 OpenAI 未来的路线定调了：要更专注开发者服务，而不再纠结于做终端应用。

这个说法不太准确。实际上，一直以来 OpenAI 就是这个路线。去年的开发者大会，除了推出 GPT-4 Turbo 之外，其它的包括 Assistance API、自然语言编程、GPT 商店，都是更多在面向开发者的。

同样一如既往的，是 Sam Altman 对于 AGI 的宏伟愿望。今年虽然没有他的演讲环节，但是在后面的圆桌对谈上、他的个人 X 上，他都没有缺席，也没有转变口风。

9 月 23 日，他在自己的博客上写了一篇长文，《智能时代》。

他写到，「我们很快就能与人工智能合作，帮助我们完成比没有人工智能时多得多的事情；最终，我们每个人都可以拥有一个个人人工智能团队，由不同领域的虚拟专家组成，共同创造几乎任何我们能想象到的东西。」

无论现在 Sam Altman 在你眼中是怎么样的形象，你都无法否认，他对自己信念的坚持，几乎到了真理一样的程度。

然而天遂人愿从来都只是一种祝福，只需看看他自己的团队就知道，事情总是不会按照计划来。

曾经 OpenAI 要做一家非营利组织，不由其首席执行官或股东控制，只为 AGI 保驾护航。如今，它将面临成为一家营利性公司的转身，Vox 称之为「OpenAI 崇高愿景最后的丧钟」。

挣钱也无可厚非。只是，想要通过 AGI——先不要拔这么高吧——想要通过大语言模型技术挣钱，并不简单，面向开发者已经是比较明智的一条路径。

在任何一个新技术出来之后，一方面，我们首先会尝试的，就是用它来解决现有的问题。LLM 在这方面显然发挥了作用：知识检索、编程、处理重复的案头工作，它的表现点燃了很多人的希望。

另一方面，会有许多更具探险精神的创业公司、开发者，挑战创造属于 LLM 的原生服务，比如聊天机器人、生成式媒体等等。

「原生」二字的要义在于，离了它就不行。就好比当年 Instagram 利用了智能手机越来越高精尖的摄像头，并通过本地计算来添加滤镜，没有这样的摄像头、没有本地运算的能力，就不行。

又比如，TikTok 离不开视频体裁的普及，微信离不开语音功能的普及，外卖这项传统业务，则因算法而改头换面。

这些例子说明的是：当拥有一项通用技术时，我们应用它的方式，是将其拆解成单一用途的工具和体验。

从这个角度来讲，一家非营利性的机构，或许并不适合做拆解的工作。制造电动机的人，不一定会造出装载着电动机的电钻、洗衣机，但是可以和洗衣机厂商合作。所以，建立并培养一个开发生态，不失为更明智的做法。

然而，这让 OpenAI 加速转型成为营利性质的公司，在姿态上显得别扭。建立开发生态的工作，可以让营利部门来完成，OpenAI 也不是没有。

更重要的是，彻底转型成为公司，会让 Sam Altman 对 AGI 的执念，显得有一些吊诡。

在他的愿景里，人工智能不仅「有助于修复气候危机，建立太空殖民，以及能够发现和研究物理现象。」

上可及九天揽月，下能写阅读理解。

可这不是一家公司的使命。归根到底，一家营利性公司的最大目标是向股东负责。在行动上，是找到市场机会，调用自身的人力、资本配置，制作出对应的产品或者服务，最后实现盈利。

如果研究物理不能让股东挣到钱，是研究不了多久的。Google 之前的机器人研发项目登月工厂，就是一个前车之鉴。

可以说 Sam Altman 所秉承的理念，实际上不是一个容易「变现」的想法。但为此付出的代价，却是整个 OpenAI 的改头换面。

因此，舆论对 OpenAI 转型发出尖锐爆鸣，并不是没有理由的：那个曾经扬言要改变一切，同时又守护人类的超酷团队，彻彻底底变了。

去年九月，也是秋天即将开始的时候，《连线》杂志用一整个特辑报道 OpenAI，当时封面上有四个人。

主笔的总编辑问过多位（当时的）高管，开始探索盈利之后有没有影响 OpenAI 的内部文化。所有人都坚持没有，尽管进行了营利性重组，尽管与谷歌、Meta 和无数初创公司竞争，但使命仍然是核心。

一年后，这四个人只剩下 Sam Altman，一同消失的，还有曾经他们口中的使命。

拥有股权与公司，送队友一个个离开，坐享无边的财富与寂寞——原来硅谷神话的终极叙事，是晋江男频爽文啊。