专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
爱可可-爱生活  ·  晚安~ #晚安# -20250206224457 ·  23 小时前  
量子位  ·  DeepSeek无问西东!先行者早已趟平全国产之路 ·  22 小时前  
宝玉xp  ·  Google 的 Gemini 2.0 ... ·  昨天  
爱可可-爱生活  ·  【[1.7k星]Frappe ... ·  2 天前  
黄建同学  ·  不得了了……Replit ... ·  2 天前  
51好读  ›  专栏  ›  新智元

o1驾驶无人机后空翻,OpenAI开发者日惊掉下巴!2分钟爆改代码写App

新智元  · 公众号  · AI  · 2024-10-31 13:25

正文



新智元报道

编辑:桃子 好困
【新智元导读】 OpenAI伦敦开发者日上,首次曝出了o1五大核心能力,还有图像理解。o1两分钟构建应用驾驶无人机、电话订餐、讲解太阳系,现场演示让所有开发者沸腾。

完整版o1的解禁,离我们不远了!
就在刚刚举办的OpenAI伦敦开发者日上,开发者体验主管Romain Huet带着o1模型来秀场了。
o1 mini联动Cursor在不到2分钟时间内,搭建了一个可以交互的应用,驾驶无人机表演后空翻。
现场数百名开发者, 掌声不断。
还有利用RealTimeAPI,构建的实时语音AI智能体向人一样,电话卖家订购200个派。而且,o1还不忘了幽默风趣,对话情商非常高。
不仅如此,有了o1构建的太阳系可视化介绍应用,想必未来的教学一定非常有趣。
这还仅仅是预览版+mini版o1的功能,在演讲末,一张PPT展示了未来o1的五大能力:
函数调用、开发者message、流式传输、结构化输出、图像理解。

o1演示炸场,台下观众欢呼不断


写代码搭App,驾驶无人机后空翻


整场最让人震撼的是,用o1 mini+Cursor搭建应用驾驶无人机飞行。
Romain Huet告诉o1,我现在有一架无人机,还缺少一个用JavaScript编写的交互界面,但是我不会如何编程。
接下来,他要求o1去构建这个应用,并设定好所有的交互按钮和组件。
并且,他向模型发送了一个样本视频,作为参考。
o1收到请求后,开始执行所有的任务。
在这过程中,为了确保应用程序搭建能够实时更新,Huet通过在UDP数据库上发送可能与用户-按钮交互相关信息,从而实现实时数据传输。
并且,这个操作也非常简单,只需要点击每个按钮,并发送更改评论,便可以在应用中得到更新。
最后,我们就得到了这样的一个交互界面。
左边黑的的框框是无人机摄像头显示屏,右边就是各种交互的按钮了。
见证奇迹的时刻到了,Huet将无人机放置在地面上,打开终端,开始运行o1搭建的应用。
只见o1驾驶的无人机演讲台上飞起,与台下的观众来了一张大合影。
更惊喜的是,无人机现场还来一个360度的运镜。
整个应用构建,用了不到2分钟的时间。
无人机demo完整视频,如下:

AI实时语音订购派,堪比真人


另外,Huet还秀了一波用RealTimeAPI构建实现实时语音的能力。这一功能实际上在上个月已经推出。
他表示,现在能够实现更长时间、更稳定的对话。
旅行应用程序Wanderlust中,Huet假设自己正计划伦敦和新加坡之旅,假设下周就要去新加坡。
他问道,你能给我提供一些游览的景点吗?
随后,在屏幕右边可视化图中,展示除了新加坡一些著名打卡点。
紧接着,Huet又让他为自己推荐酒店,以及更多细节。
实时语音一边说,一边给出了结果。
接下里,他又让o1在伦敦chiswell街区的当地商店订购一份pie。

OpenAI开发者论坛负责人Spencer Bentley分享
Huet:我们台下有数百位开发者,他们可能喜欢吃一些甜点,你能帮我看看附近这儿可能有哪些商店?
o1:这是一些关于pie商店更多的细节。
不过,o1给出的结果中,第二个并非是真实存在的商店,只有其余两个是。
为了方便演示,让现场工作人员担任卖家,Huet邀请同伴上台,一起来完成这个任务。
「在预算允许的情况下,帮我们订购200个pie,可以是肉和蔬菜的混合馅料」。
o1直接给IIan's Poah Pies打去了电话,并像人一样主动订购。

介绍太阳系,让教学更有趣


另外一个用RealTimeAPI构建太阳系导航应用程序,利用o1实时语音能力介绍星系。
从太阳系中最大的木星,到地球,再到火星深入介绍,o1全部都能娓娓道来。
OpenAI研究员表示,这一功能教会了自己:在教女儿新知识时如何成为有趣的父母。

奥特曼QA环节,自曝最敬佩Cursor


没有Sam Altamn的开发者日,就不算是完整的。在整场演讲结束后,最后一个环节,就是Altamn QA问答了。
在线上,奥特曼抛出了一个深刻的思考:
人们总是倾向于用历史上的技术革命来类比当前的AI革命。
但这种类比方式本身是存在问题的。比如说,互联网革命就与现在的情况有很大的不同。
也许拿晶体管来做比较会更恰当。
晶体管是物理学领域的重大发现,它具有惊人的规模化潜力,并且迅速在全球范围内得到应用和普及。
虽然晶体管技术让整个人类社会受益,但现在人们并不会把那些最早开发晶体管的公司仅仅定义为「晶体管公司」。

「我不祈求上帝站在我这边,而是祈求自己能够站在上帝这边。在开发这些人工智能模型的过程中,我确实感觉自己是在追随光明与正义的道路。」
问:我们应该期待像o1这样的模型还是更大规模的模型?
奥特曼:希望全面提升大语言模型的性能,但这个推理思路很重要。
「不方便透露太多细节...但我预计视觉模型领域会有突破性进展。」(这似乎暗示即将推出比GPT-4更强大的视觉模型)






请到「今天看啥」查看全文