文 | 王启隆
出品丨AI 科技大本营(ID:rgznai100)
两周前,OpenAI 为全世界展示了
GPT-4o
的惊艳首秀。虽然 Sam Altman 不久之后就卷入了一场“离职风波”中,但关于 GPT-4o 的新闻可从未停歇过。近日,在巴黎的 VivaTech 大会上,OpenAI 的开发者体验负责人 Romain Huet 为全欧洲带来了一场精彩的 GPT-4o 实机演示,再次刷新了我们认知中的“
多模态天花板
”。
VivaTech
自称为“
欧洲排名第一的创业与科技盛会
”,更有法国人称其为“科技版的戛纳电影节”。
观察
嘉宾名单,
我们会发现这名号可不是吹出来的,参会者不仅有我们熟悉的
马斯克
,“AI 三教父”的
杨立昆
与
本吉奥
,
李彦宏
,
谷歌 CEO
Eric Schmidt,
Hugging Face 创始人
Thomas Wolf,
亚马逊 CTO
Werner Vogels;还有
Mistral AI
,
Anthropic
等 AI 新星的公司一把手。
众星齐聚,
Romain Huet 的演示却并未逊色,他还预告了两件事:
OpenAI 2024 年 11 月即将发布众望所归的旗舰模型 “GPT-5”,实际上命名为
GPTNext
;此外,OpenAI 的“下一步”将会是打造「
多模态 Agent
」,在一年内让 GPT-4o 已展现出的强大多模态能力进入下一个更强的阶段。
演讲围绕 AI 的前景、GPT-4o 的发布及其对未来的影响展开,强调了 AI 技术的飞速进步,尤其是 ChatGPT 的惊人增长,从低调发布到迅速累积超过
1 亿用户
,凸显了 AI 领域的爆发力。Huet 强调,OpenAI 的使命是创造通用人工智能(AG
I),旨在为人类带来福祉,同时作为一家研究公司,它已吸引了
300 万开发者
在其平台上构建应用,涵盖从初创公司到全球 500 强企业。
在众多现场演示中,有一段令人印象深刻:Huet 和 GPT-4o 共同解决了一个编程问题,改进 Mac 应用中 React 组件的响应式布局,以适应不同屏幕尺寸。4o 不仅能催着 Huet 要看代码,还能看懂代码涉及一个展示 Discover 卡片组件的网格布局,数据来源于 trips.json 文件。
随后,4o 建议使用 Tailwind CSS 框架的响应式设计特性,根据屏幕尺寸自动调整网格中的列数,以解决内容在小屏上显示紧凑的问题。
GPT-4o 提供了具体的实施指导,包括如何使用 Tailwind CSS 的类来控制不同屏幕尺寸下的列数,确保布局随屏幕大小变化而自适应,并在得到 Huet 同意后自己完成了操作;它还详细说明了如何为不同屏幕尺寸设置不同的列数,比如默认情况下设置一列,小屏幕两列,中等屏幕三列等。最后,4o 凭借自己的多模态能力,
亲自用“眼睛”查看后确认改动有效,如同一位拥有生命的人类工程师
。
现场还展示了如何通过 Assistance API 集成辅助功能、实时知识检索、代码解释器,以及利用 Sora 扩散模型生成视频内容,进一步证明了 OpenAI 在
多模态交互
方面的创新。
以下为部分演讲内容整理:
Romain Huet:今天能来到巴黎,我感到非常激动。巴黎这座城市的 AI 氛围令人惊叹,能够故地重游,让我感到惊叹不已。我的职业生涯正是从这里起步,令人惊叹的是,见证法国生态系统在过去 15 年间的发展与演变,真是感触良多。
我现在在 OpenAI 负责开发者体验,主要关注如何让你们这些开发者、构建者和创始人真正成功地在我们平台上构建,并且是以一种真正无摩擦的方式,以便你们可以将 AI 融入到你们的应用中。在加入 OpenAI 之前,我自己也是一名创始人,就像你们许多人一样,我亲身体验了前沿模型的玩法。现在我很高兴能在这里的 VivaTech 上为大家带来“魔法”。
Huet 致敬了 Sam Altman 之前形容 GPT-4o 的话:Magic.
今天我想讲三个内容。首先,关于 AI 的前景,以及我们是如何发展到今天这一步的。接下来,我想谈谈 GPT-4o,这是我们刚刚发布的下一代旗舰模型,相信你们中的很多人可能已经有所了解了。最后,我想讨论一下我们接下来的方向以及 OpenAI 未来的发展。
首先,关于 OpenAI 和我们的使命。
OpenAI 的使命是真正创造出 AGI,即通用人工智能,并以造福全人类的方式实现
。
但我们首先是一家研究公司。
当我们审视平台上的现状和采用情况时,我们现在拥有 300 万开发者在 OpenAI 上构建应用。
我们有幸从一开始就与众多企业合作,从快速成长的初创公司到财富 500 强企业,都在这个平台上。
在某种程度上,我们对自己如何达到这一步感到相当惊讶。
许多公司通常需要多年时间才能达到这一规模。但这提醒我们,在像 AI 这样快速发展的领域,很容易低估其发展速度。事实上,ChatGPT 就是一个很好的例子。当我们于 2022 年 11 月推出 ChatGPT 时,原本计划是一次低调的发布,作为研究预览,正如我们在内部所说的那样。不用说,这次发布远非低调。我们收到了大量的注册申请,
现在已有超过 1 亿用户注册了 ChatGPT,
ChatGPT 拥有 1 亿周活跃用户,
并且这一数字还在持续增长
。
但当人们想到 OpenAI 时,往往首先想到的是 ChatGPT。
然而,更值得关注的是,这并非 OpenAI 推出的首个产品。
其首个产品是开发者平台及 API。
GPT-3 让我们初尝大语言模型(LLMs)的潜力。
这是我们在 2020 年首次向开发者及构建者开放的模型,供其集成到应用中。
AI Dungeon 是
当时 OpenAI 的一个流行用例。
这是一款角色扮演游戏,玩家可以即时生成独特的故事。
是的,这就是当时 OpenAI 平台上的情况。
2023 年,GPT-4 又开启了全新的时代。
它彻底改变了人们能够应对的使用场景类型。
它能够访问工具。
它拥有更优秀的推理能力。
当然,许多创始人和建设者试图采用这一点,以便他们能在这里使用他们的产品。
我最喜欢的一个 GPT-4 用例
是关于
Spotify
的,用法很简单
,能为你的早晨定制一个独特的精选播放列表。
但让我们记住,当我们谈论这一切时,我们仍处于这个转变的早期阶段,这代表了我们在构建、实施以及消费软件方式上的一个真正根本性的转变。因此,我们在 OpenAI 的目标是成为提供平台解决方案的最佳服务者,以便你能在此转型中构建应用。
然后,到了
GPT-4o,我们的全新旗舰模型。它现在具备实时跨音频、文本、和视觉进行推理的能力。
我预计,随着 GPT-4o 的推出,我们将看到一系列全新的辅助体验,对此我深信不疑。与 GPT-4o 相伴,借助这种原生的音频和图像处理能力,我们现在能够以一种前所未有的方式实现真正的人机交互。
对于每一波技术浪潮,我们坚信,推动创新的正是那些初创企业
。
赋能初创企业对我们至关重要。
我们深信,始终推动技术边界、为产品创造 AI 原生形态的,正是这些初创企业。
而客户服务、知识援助、代理等,将成为我们见证最多重塑的领域。我们预计,实际上有几个产品很可能会从法国诞生,并最终成为各自类别的领导者。这确实是构建者打造原生 AI 公司的最激动人心的时刻。接下来,一起来深入了解我们推出的新模型,GPT-4o。
如我所述,GPT-4o 是我们的全新旗舰模型,它使你能够构建最自然的人机交互。今天我想强调三点:
1. GPT-4o
真
正实现了超低延迟的多模态
。我认为这是我们之前从未实现过的真正独特之处。对于那些曾经使用过 ChatGPT 语音模式的用户,或者在座的某些开发者过去曾构建过语音体验,你们可能还记得,为了进行转录、推理,以及最终的文本到语音转换,你们需要拼接多个模型。当然,这反过来
增加了一些延迟,并稍微丢失了一些上下文。
但现在有了 GPT-4o,我们称之为真正的“
全能模型
”,它是一个能处理所有这些步骤的同一模型。
当你看到这张图表时,会发现 GPT-4o 实际上也是我们在聊天和编程方面性能提升的新一代推理模型。
这个排行榜由 LMSYS 管理,用户实际上是在盲测中尝试,基本上,将两个模型并排放置,让用户选择他们偏好的模型,而不告知他们底层是哪个模型。
图表最左边的 GPT-4o,在推理能力方面确实独树一帜。
最后我想强调的是,
我们还为 GPT-4o 模型带来了巨大的效率提升。
这意味着我们也能将这些效率优势传递给所有基于我们平台构建的用户。
对于使用 API 的开发者来说,这意味着
GPT-4o 的速度是 GPT-4 的两倍,
其价格则是 GPT-4 Turbo 的一半
。
最后,它的速率限制也提高了 5 倍。
因此,与之前的 GPT-4 Turbo 相比,开发者现在能在这个平台上实现更大规模的扩展。
2.
我们现在可以实时打断模型。
我不需要等到整个音频结束,而是
可以随时重新参与对话。
3. GPT 现在能理解并生成语调。
所以当我试图让 ChatGPT 更加投入,更加兴奋时,这反过来改变了音频输出。
且它在幕后拥有惊人的推理能力,这意味着我可以将其用于大量的应用场景,
比如实时翻译。
你可以将这些能力用于教育或任何类型的应用,如旅行和实时使用案例,真的很有趣。
此外,GPT-4o 还具备实时视觉能力的概念。
所以我实际上可以画点什么,展示一段视频,而非像以前那样仅拍摄照片。
仅凭一张糟糕的图画,ChatGPT 就能识别出哪些是地标,并利用地铁图进行实际导航。
我个人还非常喜欢将其作为编程助手使用。所以我可以在界面右侧调出 ChatGPT,并向 ChatGPT 发送一些代码,让它
为我们提供这段代码的背景信息,并尝试实时修复一个 bug。
我想指出的是,
GPT-4o 不仅可以参与,还可以像解决编程问题一样深入探究问题
。同样值得指出的是 GPT-4o 的速度,
你可以并排比较 GPT-4o 和 GPT-4 Turbo,
如果我点击运行来创作一首关于奥运会的歌曲,你可以看到它创建内容比 GPT-4 Turbo 快多少。
因此,它具有非常高的推理能力,速度超过两倍。
我还想介绍一下关于 OpenAI 下一步思考的展望。
有四个投资领域:
1. 文本智能。
我们的核心信念是,如果我们提高文本智能,这将释放人工智能的变革性价值。
我们坚信,提升大型语言模型智能的潜力巨大。
我们认为,如今的模型已经相当出色。
它们就像是一年级或二年级的学生。
它们能够做出恰当的回应,但偶尔仍会犯些错误。
不过,我们应该提醒自己,这些模型已经是最不智能的状态了。
它们可能转眼间就成为学霸,或是
将在医学研究或科学推理方面表现出色。
我们认为,或许从现在起的一到两年内,这些模型将变得与今日截然不同,难以辨认。
因此,
今年我们还计划进一步拓展这一边界。
我们期待下一个前沿模型能够到来,并带来推理能力的大幅提升
。
2. 确保模型始终更便宜、更快速。
我们知道,并非所有应用场景都需要最高级别的智能。
因此,我们希望确保在这些方面进行投资。
目前 GPT-4 的定价在短短一年内下降了约 80%,而我想说,
这是相当独特的,新技术如此迅速地降价实属罕见。
但我们认为,这对于你们所有人构建和实现与你们试图达成的目标以及创新 AI 原生产品规模化至关重要。
我们希望确保发布不同大小的模型,以满足你在需要扩展时的所有需求。
在某些代理工作流程中,例如,可能会始终推动推理需求的前沿。
但它们也可能需要对子流程使用一些更注重延迟的小型模型,例如。
因此,我们今天没有具体的时间表可以分享。
但只想分享,我们对此非常兴奋,并正在积极投资。此外,
我们也希望帮助你运行异步工作负载。
就在几周前,我们推出了批量 API。批量 API 是一种非常方便的方式,可以将你的所有请求批量发送给 OpenAI。这意味着,对于不需要即时响应的任务,你将能够享受额外 50% 的折扣。所以它非常适合做一些 —— 例如,如果你想发送大量图片和图像进行视觉分析,或者大量文档,使用这个批量 API 真的非常方便。
3. 我们正在大力投资模型定制化。
未来,
我们认为每个组织都会有不同的方法来实现这一点。
但他们都希望拥有一个深入了解自己业务的模型。
为此,我们可以提供一系列微调服务。
首先是任何人今天就可以开始使用的
微调 API
。
它是完全自助式的。
这是一种在模型之上引入数据,微调某些参数,使其行为适应你的特定用例的方法。
第二种是
辅助微调
,当我们的团队可以与你的团队合作,思考如何为非常具体的任务实现更高的性能。
我们的专家团队将协助你完成这一过程。
最后但同样重要的是,