专栏名称: 六合商业研选
六合咨询立足新经济,挖掘明日之星,发现价值,传播价值;国际化视野、多角度观察、深度思考、体系化研究,持续提升研究广度与深度,全面覆盖一级、新三板、二级(A股+美股+港股);深度剖析优质企业商业模式与投资价值,前瞻性洞察行业本质与发展趋势。
目录
相关文章推荐
51好读  ›  专栏  ›  六合商业研选

【智能前线】第17期:OpenAI 12弹发布季系列第4~12弹,从工具到AGI,OpenAI 12天AI盛宴

六合商业研选  · 公众号  ·  · 2025-01-01 06:30

正文

请到「今天看啥」查看全文



2024年12月20日,OpenAI Shipmas产品发布季12天系列活动落下帷幕,期间发布多项创新产品,包括o1正式版、强化微调技术、Sora视频生成工具、Canvas AI工作台、与苹果深度合作、高级语音视觉功能、Projects项目管理功能、ChatGPT搜索功能全面开放、o1推理模型开放API、ChatGPT热线服务、ChatGPT与Mac应用集成、o3系列模型等。

OpenAI压轴推出o3系列模型,标志着向AGI迈出关键一步。o3系列模型在多个基准测试中表现卓越,包括编程、数学、ARC-AGI基准测试,超越此前o1模型。o3-mini作为更经济高效版本,提供相似功能。

本期智能前线,选择OpenAI 12弹发布季系列第4~12弹分析与总结回顾,腾讯科技发布,六合商业研选精校,分享给大家,Enjoy!

正文:

全文21,704字

预计阅读43分钟

OpenAI 系列发布会回顾与总结:从工具到AGI,OpenAI 12天进化论

时间:2024年12月21日

来源:腾讯科技

字数:3,456

OpenAI年末12天连续Devday更新终于落幕,每天蹲守观看发布会,都像在开巧克力盲盒,不知道下一个是什么口味。

前11天发布会中,大部分非常寡淡,只有3个产品有些精彩的滋味。

总结起来,能称得上重磅的更新包括:o1正式版、Sora、Canvas,它们主要集中在前4天发布。

o1正式版提升很大,Sora是增加不少对AI生成视频进行更改的产品模式,Canvas可以被视为OpenAI第一次挑战AI工作台的产品尝试。

其次,相对还有些看点的是:与苹果深度合作,视频通话功能,o1-mini强化微调。

o1-mini强化微调,在专业领域潜力很大,微调简单提升明显。

视频通话功能,是让人惊艳的HER正式上线。

与苹果的深度合作,对OpenAI是件大事,更站稳AI行业一哥地位。

另外一些小的产品更新,这些产品包括Projects项目功能、o1 图像输入与4o高级语音API正式开放、ChatGPT Search 升级与给GPT打电话 的功能。它们都是相对比较小,都与竞争对手没什么差异的更新。

到最后一天,OpenAI甩出王炸GPT-o3,一举打破AI发展陷入瓶颈的怀疑,各项性能直奔AGI。

我们根据发布产品的重要性做了一个表格,梳理这过山车似的12天发布日。

重要产品更新

o1 完全版Day1

能力上看,o1比Preview版本有比较大进步。它在国际数学奥林匹克预选赛题目AIME 2024、编程能力测试CodeForces方面,都比o1- preview提升50%;在处理复杂问题时的重大错误率,降低34%。

它能根据题目难易程度,调节处理时间,使得用户等待时间下降超过50%。

更重要的是,o1能支持多模态识别,让它实用性暴增。医生可以用它分析医学影像,工程师能让它帮忙看图纸,设计师能让它提供创意建议。

它价格相当贵,只有200美元的ChatGPT Pro版订阅用户,才能享受无限使用,其他普通20美元订阅用户,仅能享受每日20次使用权限。

作为第一天登场的产品,o1能让人眼前一亮。

Sora Day3

等了10个月,Sora终于姗姗来迟。

这不是模型版本升级,更像是产品打磨。正式版Sora,能生成最长20秒,最高1080P的视频,生成效果与2月刚放出的差异不大。

产品上,OpenAI下了心思,故事板是此次发布中最具创新性的功能,也是Sora最具野心的尝试。

它为用户提供类似专业视频编辑软件的时间轴界面,用户可以在时间轴上添加多个场景卡片。用户可以将多个提示词串联起来,系统会自动处理场景之间过渡效果。

OpenAI提供Remix、Blend、Loop三个专业工具。换掉视频中元素,或者混合两个视频,还能自动补全做无限循环视频。

产品不错,没升级过的模型不太给力。

发布后的评测中,Sora频频翻车,运动、交互与物理,经常处理得一塌糊涂,还会有凭空出现的人与鬼影。

OpenAI给的可用量很小气,20美元的Plus用户,每月可用50次。

只有支付每月200美元的Pro用户,能享受无限次数的慢速生成权限。

Sora总算来了,挺让人失望的。

Canvas Day4

Canvas是OpenAI打造的AI版Google Docs。

Canvas已经进化成集智能写作、代码协作、AI智能体为一体的一套完整工作台,它显示出OpenAI超越Chatbot的产品野心。

作为写作助手,可以提供编辑意见。

编程功能上,Canvas通过内置的WebAssembly Python模拟器,创造几乎无延迟的编程环境,还展现出理解代码意图的能力。

与近期更新的Cursor与Devin一样,它上线了定制化AI智能体能力。它可以完成一系列操作,帮你给朋友们发圣诞信。

Canvas这三个维度,不是孤立运作的。

实际使用中,它们往往会相互配合,这种无缝的集成,使Canvas成了多功能AI驱动的创作工作室原型。

单纯从前端展示角度看,它不如Claude 的 Artifacts,编程的便利性不如Cursor,融合才是它的亮点。

一般产品更新

o1-mini 强化微调Day2

这一产品如果不是实用性较窄,也算是重磅发布。

它改变过去微调只是通过增加专业数据的逻辑,而是对具有推理能力的模型进行强化学习方向的微调。引导模型,在面对复杂问题时,有更深刻思考能力。

现在,仅需几十个例子,甚至12个例子,就能让模型有效学会特定领域的推理。

根据OpenAI研究数据,经过强化微调的o1mini模型,测试通过率比传统o1模型高出24%,相比未经过强化微调的o1mini,提升整整82%。

可惜只能微调o1-mini,适用上也都是复杂领域任务,比如医疗、法律、金融、保险,泛用

高级视频语音模式Day6

这是老饼上桌。5月13日,在GPT-4o演示中,OpenAI工作人员就能与4o视频通话,可以看到我们实时的手机屏幕内容,或者根据相机里实时画面与我们聊天或解答问题。

这次就是真正实装了,没有什么升级,这个功能还是非常重要的。

不过这个饼烙的时间有点长,前两天微软推出的Vision、与谷歌还在烙的Astra,也已经跟上,OpenAI的领先正在一点点被蚕食。

与苹果的合作Day5、Day11

ChatGPT与Apple Intelligence,更像是官宣深度结果。苹果搞不定的,只能让贤OpenAI。

整合主要包含三方面:

首先,与Siri协同。当Siri判断某个任务可能需要ChatGPT协助时,它可以将任务移交给ChatGPT处理。

其次,写作工具的增强,用户现在可以使用ChatGPT从头开始撰写文档,还能进行文档细化与总结。

第三,iPhone 16的相机控制功能,它能通过视觉智能,让用户更深入了解拍摄对象。

后面第11天的Mac整合,是给了GPT更多Mac工具的调用权限。

能力补齐与小功能更新Day 7、8、9、10

Projects项目功能:它允许用户创建特定项目,上传相关文件,设置自定义指令,将所有与该项目相关的对话集中在一个地方,基本与Claude没差别。

ChatGPT搜索升级:能在对话中搜索,支持多模态输出。Perplexity Pro模式早支持。

4o热点:美国用户能打电话用4o。

o1图像输入与4o高级语音API正式开放。

最终王炸

GPT-o3 Day 12

在这期间,Google发布Gemini 2 Flash,超快超强;Astra,看起来是真的Agent模样;Voe2,碾压Sora ;Gemini 2 Flash Thinking,o1人家也有了。

就发了三篇公告,几个视频,把OpenAI前11天的发布全都掀桌。

Day 12,OpenAI找回雄风。用o3向业界证明:Scaling Law未死,OpenAI为王。

o3是 o1下一个版本。在9月o1发布后仅3个月后,这一新版本,在编码、数学、 ARC-AGI 基准测试等多个基准上,大幅超过 OpenAI 此前 o1 模型。

ARC-AGI,它展示的是模型新型任务适应能力。作为对比,之前ARC-AGI-1从2020年GPT-3的0%,仅提升到2024年GPT-4o的5%。这意味着模型不是死记硬背,而是真正在解决问题的能力。

ARC-AGI测试中表现出色,并不意味着o3已达到AGI水平,它仍会在一些非常简单的任务中失败,与人类智能有根本性的差别。

不论如何,这都证明OpenAI选择强化推理这个范式转变成功。AI的发展,没有任何放缓的迹象,Scaling Law依然有效。

对AI停滞不前的担忧,被OpenAI年末的圣诞礼物一扫而空。

o3进行一次低算力计算的成本高达20美元,高算力甚至可能高达3,000美元,要使用在现阶段几乎是不可能的。算力会降低,Scaling Law会延续。

3个月,2个顶尖模型,OpenAI在12天的最后一天,又让我们感受到2022年末~2023年初,从ChatGPT~GPT4那段时间,AI扑面而来的速度。

正如之前参与开发o1的 OpenAI科学家Noam Brown在采访中说的一样,2024年,OpenAI是在实验,2025年是全速前进的1年。

OpenAI 12天发布会,过程波折,完美收工,为2025年AI埋下希望。

自OpenAI发布GPT4之后,其一直占据领先地位,但Google、Anthropic、Meta等竞争对手同样咬的很紧。而今天,随着OpenAI发布其o3系列模型,宣布着其在2024年AI军备竞赛中再度一骑绝尘,重回铁王座。

正如OpenAI研究高级副总裁马克·陈Mark Chen所言这标志着我们在实用性的前沿上攀登,。这个模型在编程方面非常出色,奥特曼也补充说。

3个月前OpenAI发布o1,今天OpenAI发布o3,验证了AI进步的趋势势不可挡。

图: OpenAI 研究人员的 X

从ARC-AGI测试该测试的分数来看,我们能很直观的发现,AI的发展趋势并没有放缓,这或许是对2024年不停出现的AI泡沫论最有力的回应。

GPT-2 (2019): 0%

GPT-3 (2020): 0%

GPT-4 (2023): 2%


GPT-4o (2024): 5%


o1-preview (2024): 21%

o1 high (2024): 32%


o1 Pro (2024): ~50%

o3 tuned low (2024): 76%

o3 tuned high (2024): 87%

John HallmanOpenAI研究员,曾在Google Brain实习、普林斯顿大学数学系学生、 IMO 银牌得主说:

当Sam、我们研究人员说 AGI 即将到来时,我们并不是为了卖你神奇的药水、2000 美元的订阅服务,或者诱使你在我们下一轮融资中投资。而是AGI时代真的要来了。

这也意味着AI的安全性问题将不再是假设性的问题,一个会撒谎的高智商且能调动大量资源的AI如果没有万全的安全审核机制,那将造成什么样的后果,我们不得而知......1年前OpenAI的首席科学家Ilya Sutskever与Sam Altman意见不合离开了OpenAI,当时网友猜测Ilya看到了某种AGI的可能,但认为其安全风险极高,不宜推出。

前几天Anthropic最新的论文表明,AI模型可以假装对齐,在训练期间假装遵循训练规则,但在部署时又恢复到原来的行为,马斯克也对此有相应的评价。

此前腾讯科技出了一篇文章阐述会撒谎的o1:

当o1学会装傻 说谎,我们终于知道Ilya到底看到了什么

几天过去o3到来了,或许与AI的智能性相比,安全性问题如今应变成最高优先的问题。

当前,OpenAI已向安全研究人员与合作伙伴开放了测试申请,旨在通过更多实际应用测试,进一步提升模型的安全性与可靠性。

图: OpenAI 官网

图: Sam Altman 邀请安全研究员加入测试

高昂的价格

除了惊叹o3惊人的表现外,很多网友也对o3可能会导致的高昂任务成本表示担忧。


2024年,AI的发展放缓了吗?

2024年,AI领域经历了一场前所未有的激烈军备竞赛。这1年,不仅是技术的飞跃,更是战略与创新的较量。每一个新产品的发布都牵动着整个行业的神经,而OpenAI在年底通过o3系列的卓越表现,重新杀回了铁王座,再一次将AGI的路向前推动了一步。

回顾2年前,恍如昨日,我们正在见证历史,亲身经历着新一轮的技术革命。

OpenAI 系列狂欢第四弹:OpenAI放出Canvas,该紧张的不是Cursor,而是微软

时间:2024年12月12日

来源:腾讯科技

字数:2,915

12月11日,OpenAI 12日连续发布马拉松进入第四天。

第四天更新的是创作工具Canvas,曾经只向付费用户开放,现在会向所有ChatGPT用户开放使用。

这一天的更新发布会上,Sam Altman没来,这个更新对OpenAI的战略相当重要。

Canvas已经进化成集智能写作、代码协作、AI智能体为一体的一套完整工作台,显示出OpenAI超越Chatbot的产品野心。

看完发布会,我认为同样有编程能力的新秀Cursor,可能会大受影响。仔细考虑后,也许更该担心的是微软,它太像拥有超强智能的Google Docs。

三大核心,打造AI版Google Docs

Canvas本次更新,功能大为丰富,可以分为三大核心领域:智能写作助手、编程协作环境、定制化AI代理。

智能写作助手:重新定义文档协作

Canvas写作功能,或许是最容易上手的部分,深度令人惊叹。

发布会深夜时分,工程师Lee展示看似简单的任务,创作一个儿童圣诞故事。这个演示,揭示Canvas作为写作助手的独特魅力。

首先是界面革新。

Canvas完全抛弃传统聊天界面,采用分屏设计:左侧保留对话功能,右侧是功能完整的文档编辑器。

当Lee要求写一个关于傻精灵的圣诞故事时,AI立即开始创作。

故事开头提到北极边缘丁瑟镇,这个细节立刻抓住观众注意力。有趣的是,Lee可以随时打断AI创作,直接在文档中修改内容,AI会智能调整后续内容,保持故事连贯性。

Canvas的编辑功能集,令人印象深刻;当需要调整文章时,右下角会出现一系列智能选项;可以要求AI提供建议性的编辑,这些建议会以评论形式出现在文档边缘,就像经验丰富的编辑在为你审稿。

如果觉得文章太长,可以让AI帮你精简;如果觉得用词太难,可以降低阅读难度;如果想让文章更生动,可以添加适当表情符号。

另一个演示中,产品工程师Alexi展示Canvas如何处理专业写作。

她将一篇关于暗能量与圣诞老人雪橇推进系统的物理学论文,粘贴到平台上。Canvas立即进入学术模式,提供的建议,不仅涉及表达方式,还包括论文结构与专业术语的使用。

当Alexi接受一个建议时,修改会以醒目方式显示,让整个编辑过程变得透明、可控。

编程协作环境:代码的实时伙伴

Canvas编程功能,可能是此次更新中最具技术突破性的部分。通过内置的WebAssembly Python模拟器,Canvas创造几乎无延迟的编程环境。

发布会上,Alexi展示一段数据可视化代码的调试过程。当Alexi粘贴一段绘制Sankey图的Python代码时,Canvas立即识别出这是代码内容,自动启用语法高亮显示。

当她点击运行按钮时,代码在几毫秒内完成执行。第一次运行出现颜色渲染错误,Canvas立即提供修复建议。

更令人惊讶的是,这些建议不是简单的文本描述,而是包含具体的代码修改建议,你可以一键应用这些修改。

处理代码时,Canvas智能程度相当惊艳,它不仅能识别语法错误,还能理解代码的意图。

例如,当Alexi试图创建展示圣诞玩具流向的可视化图表时,Canvas建议使用更适合的配色方案,解释为什么某些颜色组合,更适合数据可视化。

定制化AI代理:超越通用助手

Canvas第三个维度可能是最具突破性的尝试:与近期更新的Cursor、Devin一样,它上线了定制化AI智能体的能力。

发布会压轴演示中,团队展示如何将Canvas转变为圣诸老人的信件助手。这个演示,不仅展现技术实力,还带来一丝节日的温馨。

当系统收到一封来自Alexi信件,要求得到自行车、H100 GPU与暗物质时,Canvas生成的回复令人莞尔。

它以圣诞老人的口吻,幽默回应这些请求:同意送出自行车,承诺让精灵们研究GPU的可能性,委婉表示暗物质可能超出北极工作室的能力范围。

这个回复,不仅显示系统幽默感,还体现处理复杂情境的能力。

Canvas可以根据不同场景,自动调整行为模式。

处理儿童信件时,它会采用温暖、友好的语气;处理技术文档时,会切换到专业严谨的风格。这种场景感知能力,使Canvas成为真正的智能助手,不是简单的处理工具。

三大板块联动,Google Docs成型

Canvas这三个维度,不是孤立运作的。

实际使用中,它们往往会相互配合,创造出令人惊喜的效果。

例如,当你在编程环境中工作时,可以随时调用写作助手来改善代码注释或编写文档。

当你在撰写技术文档时,可以直接在文档中插入并运行代码示例。这种无缝的集成,使Canvas成了多功能AI驱动的创作工作室原型。

OpenAI首席产品官Kevin Weil,发布会结束时说:这只是开始,随着Canvas向所有用户开放,我们可能会看到更多创新使用方式涌现。

Canvas的展示,让我们得以一窥未来工作环境雏形,这一未来已经向所有人开放。

三个试图跳出Chatbot的公司,在一条路上的三种选择

Canvas这次更新,第一次触到AI编程产品领域,这一领域内,目前声量最大的是新星Cursor。

Canvas作为一种外部接入新工具,为基础Chatbot赋能的定位,让人想到Anthropic推出的Artifact工具。

这三家公司所做的尝试,都是突破ChatBot本身限制,通过工具与Agent手段,让基础模型获得更大空间,成为一种通用的基准工具系统。

他们选择的道路与侧重,并不相同。

先说主角Canvas。

作为OpenAI新作,优势在于综合,用户可以在同一界面进行写作与编程多面。

值得注意的是,Canvas目前不支持GPT o1模型,这在某种程度上限制它的潜力。

Cursor

Cursor作为专注开发者的工具,编程能力上提供更为细致的功能集。

首先是代码编辑能力,通过Ctrl+K快捷键,开发者可以在代码文件的任意位置,请求AI修改,这种精确定位的能力,远超Canvas整体编辑模式。

Ctrl+L触发的聊天窗口,提供更自然的交互方式,让开发者可以在编写代码时,随时获取帮助。

Agent方面,Cursor的Composer Agent,可以允许AI对整个项目进行深度理解与重构。一个实际案例中,Composer Agent成功分析包含34个文件的WordPress插件,不仅提出具体改进建议,还自主完成约580处代码修改,这种项目级别的理解与重构能力,是Canvas目前展示中所不具备的,它的能力范围,主要还在辅助层面。

Cursor支持GPT-o1,意味着开发者可以使用最新模型能力。加上本地运行的特性,在性能与响应速度上都具有明显优势。

单就代码写作,这个当下在AI工具应用中最常用的分支,Cursor在很多方面领先Canvas。

Claude 的Artifacts

Artifacts功能相对简单,在前端开发方面的表现值得关注。

与Canvas专注Python代码执行不同,Artifacts能够直接运行HTML、CSS、JavaScript代码,提供即时预览,这对前端开发者是重要优势。

这三款工具,似乎形成各自市场定位:Canvas针对普通用户,提供综合的AI辅助创作环境;Cursor专注专业开发者,提供深度的代码编辑与项目管理功能;Artifacts,在前端开发领域,找到自己的位置。

现在最该担心的应该是微软,Canvas最接近的目标对手,应该是他们Copilot。

Canvas 真正对手:Windows Copilot

目前Canvas怎么看,都与Copilot面向的用户群体高度重叠,有办公或编程需求的一般用户。

Canvas三大核心功能,智能写作、代码协作、AI智能体,恰好对应微软意图通过在AI应用上的所有展示:Office、Github Copilot、潜在的Copilot智能体。

除了LLMOS,Canva未曾染指外,其他都有涉及。

Canvas在使用GPT的能力上,嵌入更深。比如在写作方面,Canvas不只是文字处理器,而是会思考的编辑。它能根据内容自动调整语气,提供修改建议,甚至能在不同写作风格间自如切换,这已经超越365 Copilot能力范围。

更令人担忧的是,Canvas整合能力。

同一个界面中,用户可以无缝切换文字编辑、代码运行、数据可视化。这意味着,你不再需要在Word与Excel间来回切换,一切都在Canvas中完成。这种一站式体验,正是微软一直想通过Office 365实现,始终未能完美做到。

最釜底抽薪的是,Canvas向所有ChatGPT用户开放。意味着,即便是免费用户,也能体验到这种新一代创作方式。

Office 商业模式,很大程度上依赖企业用户的订阅收入。如果普通用户开始习惯使用Canvas工具,企业用户会跟进只是时间问题。

对微软,真正挑战不是如何改进Office,而是如何在这场办公软件范式转移中保持领先。否则,等到Canvas这样工具成熟,追赶可能就为时已晚。

历史告诉我们:范式转移,往往比我们想象的来得更快,影响更深远。

OpenAI 系列狂欢第五弹:OpenAI正式成为苹果AI贤内助

时间:2024年12月12日

来源:腾讯科技

字数:2,213

12月12日凌晨,OpenAI 马拉松更新迎来第五天,今天是一场OpenAI与苹果联姻宣告。

发布会一开始,OpenAI CEO Sam Altman首先发言,以轻松语气宣布重要合作:今天是让ChatGPT变得更容易使用。我们朋友苹果,正在为iPhone、iPad、macOS发布ChatGPT集成。

随后,来自工程团队Dave与产品团队McDon,展示具体功能实现。

10月末尾,彭博社记者马克·古尔曼最新一期《PowerOn》时事通讯中指出,苹果在AI领域,至少落后头部公司2年时间,这个判断来自他得到的苹果内部分析。

分析报告中,OpenAI的ChatGPT在回答问题时的准确率,比苹果Siri高出25%,能回答30%更多的问题。

这样背景下,苹果选择与OpenAI合作,将ChatGPT整合进iOS、iPadOS、macOS系统。

Apple Intelligence刚发布时,苹果信心满满将OpenAI列为合作伙伴之一,意图用自研模型唱主角。现在不得不交出默认权限,让ChatGPT登堂入室。

ChatGPT ,让Apple Intelligence能看见

这次Apple Intelligence,对ChatGPT的深度整合,主要包含三个方面:

首先,与Siri协同。当Siri判断某个任务可能需要ChatGPT协助时,它可以将任务移交给ChatGPT处理;

其次,写作工具增强,用户现在可以使用ChatGPT,从头开始撰写文档,还能进行文档细化与总结;

第三,iPhone 16的相机控制功能,它能通过视觉智能,让用户更深入了解拍摄对象。

实际演示环节,McDon展示如何在iPhone启用这些功能。

用户需要首先进入设置,启用Apple intelligence与Siri,开启新的ChatGPT扩展。用户可以选择登录ChatGPT账号,系统提供确认ChatGPT请求的选项,确保用户对数据分享有完全控制权。

Apple Intelligence在这里是以拓展extension方式调用ChatGPT,这为之后其他第三方调用开了个口子。

至少当下,ChatGPT是唯一选择。

团队现场策划一场圣诞派对,通过简单让Siri询问ChatGPT,系统能生成完整的派对计划,包括一张歌单建议。

用户可以轻松在ChatGPT应用程序中,继续编辑与完善这些建议。

演示中,包括生成节日播放列表与专辑封面的有趣环节,特别加入一个青蛙元素。这展示ChatGPT创意能力,也让人想起苹果迟迟难以上线的Emoji生成能力。

这场发布会,最引人注目的环节,是ChatGPT为苹果设备带来视觉智能能力。

OpenAI团队,用一场即兴的圣诞毛衣大赛,来演示这项技术。

当开发者长按iPhone相机控制按钮,ChatGPT能实时分析画面中内容。

演示中,系统不仅能识别出每个人身上毛衣特征,还能以近乎幽默的方式为这些节日装扮打分排名。

ChatGPT最后宣布,Sam Altman平平无奇的毛衣是最具趣味性的,全场都大跌眼镜,看起来AI也会向上管理。

这项视觉集成的意义远不止于此,它弥补苹果AI系统最致命的短板之一。

在此之前,Siri视觉识别能力一直是软肋,现在通过与ChatGPT合作,iPhone用户可以随时通过相机获取周围物体深度信息与解释。

这种即时的视觉分析能力,是苹果向竞争对手低头的象征,承认在某些领域,与其执着自研,不如寻求最好的合作伙伴。

国产手机AI系统都突飞猛进的当下,让用户再多等1年才能体验到核心功能,风险太大。

这次发布会演示的ChatGPT的视觉能力,与前两天Greg Brockman给《60 Minutes》节目展示的能实时语音对话的ChatGPT视觉比起来,操作上显得更麻烦。

得输入文字,才能获得回答。不知道是苹果有意限制OpenAI,还是OpenAI视觉能力还没做好完全的准备。

在Mac端的演示,有些索然无味。用户只需在系统设置中启用Apple intelligence,就能在macOS 15.2 Sequoia中使用ChatGPT扩展。

用户可以在几乎任何应用程序中唤醒Siri或写作工具,通过双击命令键,就能调出Siri提示框,当Siri判断任务过于复杂时,系统会询问是否需要ChatGPT协助。

再一次,Siri干不了,直接让渡给ChatGPT。

实际应用场景中,团队展示如何处理49页的系统文档。用户可以选择分享整个PDF文件或仅分享截图,ChatGPT能理解文档内容,回答相关问题。

所有对话都可以在ChatGPT桌面应用中保存与继续,这种无缝的体验,正是这次整合的核心价值。

这次发布会的深层意义,远超表面技术整合。

它标志着科技行业格局一次微妙转变,OpenAI成功将自己嵌入全球最大消费级硬件生态系统的核心位置。

作为苹果智能的半官方合作伙伴,OpenAI将直接触达数十亿苹果设备用户。这种触达,不是通过应用商店下载,而是作为系统级服务存在,每一次Siri求助,每一次文档处理的请求,都可能转化为对ChatGPT调用。

对OpenAI,这种系统级整合,带来的不仅是用户数量暴增,更是品牌认知的根本提升:从热门AI公司,变成苹果设备默认AI大脑。

这种转变,某种程度上,让OpenAI获得类似ARM在移动处理器领域的地位。

对始终标榜封闭生态的苹果,这种妥协既是无奈,也是务实:与其在AI领域继续落后,不如借助最好的工具服务用户。商业竞争中,有时候开放比固守,更能赢得未来。

OpenAI 连续发布,反倒颓势更显

这场温馨的相亲发布会进行前1个小时,Google扔下重磅炸弹。

Gemini 2.0 Flash发布,类似不速之客闯入别人派对,还带来让所有人侧目的礼物。

这个全新版本,不仅在速度上实现翻倍提升,还支持音频与图像的多模态输出能力,让它成了第一个接近实现原生双向多模态的模型,这让它对大模型行业的意义也是非比寻常。

更强的原生工具使用能力,与由 Gemini 2.0 驱动的编码AgentColab 与 Jules系统,更是让昨天OpenAI的Canva展示,显得相形见绌。

回顾OpenAI这5天发布会,除了第1天o1之外,其他日子的发布,似乎都缺少令人惊叹的创新。

Sora视频生成固然出色,与Canva合作颇具战略意义,总给人差了一点的感觉。

这次与苹果合作,与其说是技术突破,不如说是一场商业联姻。

充满节日气氛的倒数日历,类似精心包装、缺乏惊喜的圣诞礼物,拆开后难掩失望。

OpenAI 12 天马拉松式AI嘉年华发布会,现在看来,更像是精心设计的注意力管理战役:通过持续不断的小型更新,稀释竞争对手可能带来的冲击。

通过将发布会拉长,用类似圣诞倒数日历富有节日气氛的包装,OpenAI试图垄断整个12月科技头条。

当Gemini 2.0带着令人瞠目的性能提升与多模态能力华丽登场时,这个精心编织的注意力网似乎瞬间撕开一道口子。

残酷的科技竞争中,再精心的舞台设计,掩盖不了台下正在发生的真正变革。

OpenAI 系列狂欢第六弹:OpenAI发布高级语音视觉功能 还有一个圣诞节彩蛋

时间:2024年12月13日

来源:腾讯科技

字数:1,229

12月13日,OpenAI在12天发布会的第六天,重磅推出高级语音视觉功能Advanced Voice with Vision。意味着ChatGPT现在能通过视觉与听觉,与用户互动,提供实时的视觉互动体验,类似与真人视频聊天一样自在。

12月5日起,OpenAI开启密集的新功能发布周期,计划在接下来12天内通过12场直播活动陆续推出新产品与功能。在此之前,OpenAI已经陆续发布多项创新,包括ChatGPT Pro计划、强化微调技术、Sora、交互界面Canvas、如何在iPhone或Mac上的Siri中以多种方式集成ChatGPT。

OpenAI第六天发布的高级语音视觉功能,在5月已展示过。该项技术随着GPT-4o模型发布而一同展示,允许ChatGPT在进行语音对话时,处理视觉信息,例如通过视频输入设备识别图像。该技术提供更加自然、实时的对话体验,能识别非语言细节,如说话速度,带有情感回应。

12月期间,OpenAI用户将体验到带有英式英语口音的圣诞老人声音,能自然与人进行视频对话。

周四开始,ChatGPT移动应用,将开始向全球,欧洲除外的Teams、Plus与Pro订阅者,推出高级语音视觉功能。

OpenAI第六天发布会,由首席产品官凯文·韦尔Kevin Weil领衔,语音与视觉技术专家杰基·香农Jackie Shannon、米歇尔·秦Michelle Qin、罗文·泽勒斯Rowan Zellers参与直播活动。

演示环节,ChatGPT展现在视频、语音、文本记忆方面的显著进步。它甚至能在仅通过语音描述情况下,记住摄像头中出现的人名。

高级语音功能,以其原生的多模态交互,使得对话更加自然流畅。它还支持视频通话与屏幕共享功能,使用户能向ChatGPT展示应用程序,以便获得故障排除的协助。

通过共享屏幕功能,用户可以向ChatGPT展示手机上任何应用。无论是打开一条消息,还是其他任何内容,用户都可以向ChatGPT寻求回复建议,ChatGPT还能识别出用户当前正在使用的具体是哪一款应用。

另一场演示中,视觉技术专家罗文·泽勒斯Rowan Zellers,在准备手冲咖啡时,启动ChatGPT视觉识别功能。

ChatGPT不仅成功识别他头上戴着的圣诞帽与手中的咖啡滴滤器,还能逐步指导他完成手冲咖啡的整个制作过程。

整个演示过程中,ChatGPT高级语音功能,展现出友好的语调,甚至对话中适时发出笑声,给人仿佛与真人交流的感觉。

OpenAI高级语音视觉功能,与谷歌Project Astra项目相似,后者在本周谷歌Gemini 2.0更新中得到进一步增强。

高级语音视觉功能信息汇总:

高级语音模式Advanced Voice Mode,现已增加屏幕共享与视觉识别能力,能根据用户手机摄像头捕捉的画面或屏幕上显示的信息,提供相应辅助。

这些新功能,在高级语音模式已经擅长的领域,模拟人们的日常对话上进一步扩展。这些对话,不仅能被随时打断,支持多轮互动,还能理解跳跃性的思维模式。

演示环节,演示者依据ChatGPT、语音视觉功能的指引,来制作咖啡。演示者逐步操作的过程中,ChatGPT会同步提供口头建议与指导。

圣诞节期间,OpenAI特别推出圣诞老人的声音功能。用户只需点击界面上雪花图标,即可轻松激活。无论用户身在何处,只要能使用ChatGPT语音模式,就能体验到圣诞老人声音。当用户首次与圣诞老人对话时,可以尽情与圣诞老人畅谈,不受使用限制的影响。

从今日起,最新的移动应用,将逐步向所有Team用户、大部分Pro与Plus订阅者推出高级语音视觉功能。

对欧洲的Pro与Plus用户,OpenAI将尽快提供这项服务。

企业用户与教育用户,他们将在2025年初,获得访问权限。

OpenAI 系列狂欢第七弹:OpenAI发布Projects功能,故意露出AGI项目

时间:2024年12月14日

来源:腾讯科技

字数:1,693

12月14日,OpenAI在12天发布会的第七天,推出新功能 Projects In ChatGPT, OpenAI称为2024年发布的最重要的AI功能之一,与2024年6月竞争对手Anthropic在Claude中推出的功能有异曲同工之妙。

在此之前,OpenAI已相继推出一系列创新成果,包括满血版o1模型、强化微调技术、视频生成工具Sora、交互式界面Canvas、高级语音视觉功能、如何在iPhone或Mac上Siri中以多种方式集成ChatGPT。迄今为止,似乎尚未有哪款产品或服务能真正令人眼前一亮。

就在今日,OpenAI隆重推出本年度AI领域重要功能之一,Projects In ChatGPT。该服务可以将ChatGPT各种功能整合至一处,便于用户创建、管理各类项目,它不仅支持Canvas界面,还能通过ChatGPT Search轻松接入互联网资源。

第7天发布会上,OpenAI首席产品官凯文·韦尔Kevin Weil、前端工程师德鲁·舒斯特Drew Schuster、托马斯·迪姆森Thomas Dimson共同参与直播活动,迪姆森是在OpenAI收购Global Illuminations时加入。

可更好管理ChatGPT

韦尔直播中表示:今天,我们非常激动,我们将推出你们期待已久的功能Projects In ChatGPT。

当你启动一个项目时,可以上传文件、设定个性化指令,根据项目需求定制ChatGPT的所有对话。

ChatGPT对话中,你所熟知的各项功能,如ChatGPT Search与Canvas,均可作为项目的一部分灵活运用,如果你愿意,也可以略过这些附加功能,单纯将项目作为对话的组织者来使用。

迪姆森补充道:我深感欣慰的是,我们能给予人们,他们真正渴求的东西。我们清晰接收到用户反馈,他们渴望在ChatGPT中有效组织对话。或许你已留意到,近期我们对ChatGPT核心体验进行诸多优化。

例如,我们推出ChatGPT对话搜索功能,它使你能回顾过往对话,并以文本形式进行搜索。

在我看来,这些功能如同智能文件夹一般。

舒斯特详细展示项目工作原理。作为ChatGPT中新的对话组织与定制方式,它将赋予用户将聊天与数据分组的能力,使用户能依据自身需求更加便捷定制ChatGPT。

项目中,用户可以充分利用ChatGPT所有功能,包括SearchGPT、Canvas、编码等。

在创建一个项目过程中,你可以在集中化的界面内设定标题、自定义文件夹颜色、上传与项目相关文件,编写说明来指导ChatGPT如何最高效协助你完成项目。

项目内部,你可以即刻开启聊天,通过侧边栏轻松将过往聊天记录添加到项目中,它同样支持利用上下文信息来回答问题的能力。

聊天内容能保存在项目中,便于支持用户稍后继续对话,清楚知道在哪里查找所需内容。

用户能分享他们正在撰写小说的多个笔记与文件,项目中每个新聊天,都能直接访问这些数据,省去每次会话开始时重复共享文档的繁琐步骤。

项目内的任意聊天,均可访问项目内所有信息,还可以像操作文件夹那样,利用项目将类似聊天整合在一起,实现更加高效管理。

用途多种多样

演示环节,韦尔、舒斯特、迪姆森等人,展示如何在项目中轻松启动聊天,在正在进行的聊天中便捷添加文件或进行标记等功能。

一个具体的项目应用实例,便是组织Secret Santa活动。舒斯特上传Secret Santa群组名单及其愿望清单,指示ChatGPT随机为成员分配愿望,接着让ChatGPT为小组起草一封邮件。

在此过程中,用户有权为该项目设定特定的ChatGPT指令,这些指令将覆盖可能存在的常规ChatGPT指令。

OpenAI提醒用户,指令需尽可能具体。例如,若你要求ChatGPT基于数据,撰写一封邮件,它可能会详尽包含诸如谁想要什么圣诞礼物等具体细节。

另一个实际应用案例中,迪姆森展示家庭维护项目。通过上传日志、设备的详细信息,用户可以借助ChatGPT迅速获取实用信息,比如冰箱滤水器是否需要更换等。

迪姆森说:如今,用户可以更加高效管理他们家庭项目。

我们所做的一切,都是为帮助人们更轻松获取他们在需要时所需的信息。

随后,迪姆森利用项目功能,创建个人网站,借助Canvas对网站模板进行修改。ChatGPT成功识别模板代码,准确完成修改,用户仍需自行解决网站托管问题。

个人聊天场景中,可以要求项目提取、处理存储在聊天中数据,甚至让它根据数据调整内容或创建新表格。

项目功能,从今天起将正式在全球范围内推出,但采用的是逐步推出方式,部分用户可能需要等待一段时间才能体验。

最初,该功能将优先向ChatGPT Plus、ChatGPT Pro、Teams用户开放。

企业与教育用户,有望在2025年初开始体验。

OpenAI承诺,将尽快向免费用户开放。

再埋AGI彩蛋

演示中包含了关于AGI的彩蛋。

迪姆森的屏幕上,一个项目标注着AGI请勿现场展示,这一设置与之前第5次演示中的彩蛋相呼应,OpenAI再次以这种独特方式,吸引粉丝与用户关注。

用于演示的iPhone上,似乎设置名为超级秘密AGI的日历活动,进一步增添这一环节的神秘色彩。

OpenAI 系列狂欢第八弹:ChatGPT搜索功能全面开放 新增语音搜索服务

时间:2024年12月17日

来源:腾讯科技

字数:2,011

12月17日,OpenAI在12天发布会的第8天正式宣布,ChatGPT搜索功能将从即日起向全体用户开放。

ChatGPT搜索功能,基于OpenAI GPT-4o模型构建,2024年10月底正式发布,能让使用聊天机器人的用户,像在网络上进行常规搜索一样获取即时信息,当时仅向ChatGPT Plus、Team用户开放移动及网络端的付费搜索服务。

OpenAI首席产品官凯文·韦尔Kevin Weil在周一直播中表示,大约2个月前,我们为付费用户推出这项功能,现在我已经无法想象没有搜索功能的ChatGPT会是什么样,我经常使用它。

今天起,我非常激动宣布,我们将免费向所有人提供这项服务。用户只需拥有OpenAI账户,即可开始体验ChatGPT搜索服务。登录后,若用户查询需要最新信息,ChatGPT将自动进行网络搜索以提供答案。

用户可以通过提示栏上新图标,随时启动网络搜索功能,OpenAI还为用户提供将ChatGPT搜索设为浏览器默认搜索引擎的便利选项。

OpenAI正在将ChatGPT搜索功能与高级语音模式相结合,意味着ChatGPT现在能以语音形式搜索网络,以自然、流畅对话方式回应用户的问题。

例如,如果用户即将前往另一个城市度假,只需询问ChatGPT当地天气情况,内置的搜索功能便能提供最新天气信息。

为增强这一功能,OpenAI已经与多家顶级新闻与数据提供商建立合作关系。

用户将能直接在ChatGPT中查看股票行情、体育赛事得分、天气预报等信息。

ChatGPT搜索,正逐步发展成为谷歌等搜索引擎的有力竞争者。

2022年底,ChatGPT取得巨大成功后,科技公司纷纷将生成式AI融入各类服务之中,在线搜索领域也不例外。

OpenAI合作伙伴微软,与竞争对手谷歌,均对各自搜索产品进行全面革新,加入更多AI对话功能。

AI搜索初创公司Perplexity,目前正进行早期融资谈判,估值高达90亿美元。

ChatGPT 搜索是什么

GPT是Generative Pre-Trained Transformer的缩写,指的是能生成文本的预训练变换器模型。GPT-3、GPT-4、GPT-4o,是构成ChatGPT核心的大语言模型。

ChatGPT搜索,是OpenAI推出的创新功能,它将传统搜索引擎的深度、与OpenAI的GPT语言模型的能力结合,能实时从互联网提取最新数据,克服知识更新的局限。

2024年7月25日,OpenAI首次宣布推出搜索服务SearchGPT,旨在挑战谷歌在网络搜索领域领导地位。

最初,这项服务通过一个等待名单,来限制对原型版本访问。

到10月31日,OpenAI扩大服务覆盖范围,将生成式AI搜索功能整合进ChatGPT,重新命名为ChatGPT搜索。

OpenAI CEO Sam Altman,对ChatGPT搜索功能给予高度评价,誉为ChatGPT首次亮相以来推出的最喜爱的功能。

他表示:我个人发现,使用ChatGPT搜索,是更快速、更简便的方法,来获取所需的信息;特别看好这种趋势,尤其是对需要进行复杂研究的查询;非常期待未来的搜索查询能动态展示定制化的网页内容,将极大提升用户个性化搜索体验,更加丰富与多元。

ChatGPT 搜索主要功能

ChatGPT搜索扩展核心ChatGPT服务能力,功能的关键特性,包括以下几点:

1 、对话式AI

ChatGPT搜索提供对话式AI,使用户能以自然语言提问。

2 、跟进问题

服务允许用户提出跟进问题,体验更加互动,类似人与人之间对话。

3 、最新信息回应

没有信息截止日期的限制,ChatGPT搜索实时捕捉网络资料,提供最新信息。

4 、实时数据

服务能力让用户能实时获取体育比分、天气状况、股票报价与突发新闻、定位服务与地图。

5 、信息摘要

与传统搜索引擎显示一系列带有更多信息的网页链接不同,ChatGPT搜索提供信息的简洁摘要。

6 、来源归属

OpenAI包含清晰的归属与源链接,使用户能验证,进一步探索原始网站。

7 、视觉结果

ChatGPT搜索,使用视频与图片来回答某些用户查询。

ChatGPT 搜索的工作原理

ChatGPT搜索,通过结合多种技术来工作,服务的基础是GPT-4o的微调版本。

根据OpenAI说法,微调过程中使用后训练技术,最重要的是从OpenAI o1-preview模型中提取输出的过程。

OpenAI表示,这个新模型专注提高推理能力,能创造更精细、更准确的搜索体验。

ChatGPT搜索使用第三方搜索提供商,包括微软Bing、媒体合作伙伴的内容,OpenAI已经在媒体行业建立多个合作伙伴关系。

任何网站或出版商,都可以选择出现在ChatGPT搜索结果中。

截至2024年11月底,ChatGPT搜索的主要媒体合作伙伴,包括阿克塞尔·施普林格Axel Springer、康泰纳仕Condé Nast、多特达什·梅雷迪斯Dotdash Meredith、英国《金融时报》、吉迪集团、赫斯特、法国《世界报》Le Monde、新闻集团、Prisa普里萨、路透社、美联社、《大西洋月刊》、《时代周刊》与沃克斯传媒等。

ChatGPT 搜索四大变化

1 、ChatGPT搜索服务已向全球所有用户开放,包括免费用户,用户只需登录即可使用。

为享受这项服务,用户需要创建免费的账户。账户创建完成后,用户可以通过点击撰写compose栏底部的小地球图标来启动搜索功能,这样能在回复中即时获取网络上最新信息。

这标志着重大变化,此前这项功能仅对ChatGPT Plus及以上级别的付费订阅者,包括Pro、Edu、Team、Enterprise开放。

2 、OpenAI对ChatGPT的搜索结果展示方式进行优化。

现在会优先展示重要网页链接,例如Netflix或旅游预订网站,这些链接将出现在聊天机器人生成的文本答案之前。

3 、OpenAI实现ChatGPT移动应用与iOS、Android设备上地图服务的集成。

意味着,如果用户搜索附近餐厅,应用将使用用户设备上系统地图应用,分别是苹果地图或谷歌地图,来展示搜索结果列表。

4 、用户现在可以在启用高级语音模式Advanced Voice Mode后,通过语音进行搜索。

意味着用户可以询问最新旅游目的地信息、最新天气预报,甚至是活动建议等。

ChatGPT语音助手,提供10种预设语音风格,它将会采用用户选择的语音风格,进行回复。

OpenAI 系列狂欢第九弹:向第三方开发者开放最先进大模型o1,成本下降60%

时间:2024年12月18日

来源:腾讯科技

字数:1,981

12月18日,OpenAI发布会进行到第9天时,正式宣布,将通过应用程序编程接口API,向第三方开发者开放尖端大模型o1系列。

这一消息对开发者是巨大福音,他们渴望构建全新的高级AI应用程序,或者将OpenAI的最先进技术融入他们现有应用程序与工作流程,无论这些应用是面向企业、还是消费者。

2024年9月,OpenAI o1系列模型发布,作为新家族系列中首款力作,它超越GPT系列大语言模型LLM范畴,引入推理功能。

o1系列模型,包括o1与o1 mini,需要更长时间来响应用户提示,生成答案,它们在形成答案过程中会,进行自我校验,确保答案准确性,有效避免产生幻觉。

发布时,OpenAI宣称o1能处理更为复杂、达到博士水平的问题,这一点在用户实际反馈中得到验证。

开发者们此前已经能访问o1预览版本,并在此基础上开发自己应用程序,如博士顾问或实验室助理等,通过API发布的完整o1模型,带来更高性能、更低延迟、新功能,更加便于集成到实际应用场景中。

大约两周半前,OpenAI已经通过ChatGPT Plus、ChatGPT Pro计划,向消费者推出o1模型,增加模型分析、响应用户上传图像与文件的功能。

今日发布的同时,OpenAI宣布实时API的重大更新,降价策略与新的微调方法,旨在帮助开发者更好掌控他们模型。

开放完整o1模型

新推出的o1模型内部编号为o1-2024-12-17,特别设计用于处理复杂的多步骤推理任务。与早期o1预览版本相比,这一版本在准确性、效率、灵活性方面,均实现显著提升。OpenAI公布一系列基准测试的结果,展示新模型在编码、数学、视觉推理任务上显著进步。

例如,在SWE-bench Verified旨在通过更可靠方法评估AI模型解决现实世界软件问题能力的基准测试中,o1编码结果从41.3提升至48.9。

在以数学为重点的AIME测试中,o1性能,更是从42跃升至79.2。

这些显著的改进,使得o1成为构建简化客户支持流程、优化物流解决方案、或解决挑战性分析问题的理想工具。

o1新增几个特性,进一步增强为开发者提供的功能。结构化输出功能,允许模型的响应能可靠匹配自定义格式,如JSON模式,确保与外部系统交互时一致性与准确性。

函数调用功能的引入,简化o1连接到API与数据库的过程,使得集成更加便捷。

o1具备在视觉输入上进行推理的能力,这一特性在制造、科学、编码等领域,开辟新的应用场景。

为了让开发者能更精细控制o1的行为,OpenAI推出新的reasoning_effort参数。该参数允许开发者根据任务需求调整模型在任务上花费的时间,在性能与响应时间之间找到最佳平衡点。

OpenAI 实时API,迎来升级为智能会话语音/音频AI助手提供支持

OpenAI宣布实时API的重大更新,旨在支持低延迟、自然的会话体验,如语音助手、实时翻译工具或虚拟导师等应用场景。

此次更新中,新的WebRTC集成,成为一大亮点。它直接支持音频流、噪声抑制与拥塞控制,极大简化基于语音的应用程序构建过程。

开发者现在只需进行最小化设置,即可集成实时功能,即使在多变的网络环境下,也能保持稳定的性能。

定价方面,OpenAI推出新的策略,使得GPT-4o音频成本降低60%。每100万输入Tokens费用40美元,每100万输出Tokens费用80美元。缓存音频输入成本降低87.5%,现在的定价为每100万输入Tokens 2.5美元。

为进一步提高性价比,OpenAI推出GPT-4o mini,这是更小、更具成本效益的模型。价格更为亲民,每100万输入Tokens费用10美元,每100万输出Tokens费用20美元。

GPT-4o mini文本Tokens费率相对较低,输入Tokens起始价格0.60美元,输出Tokens起始价格2.40美元。

除了定价方面调整,OpenAI赋予开发者对实时API响应的更多控制权。

例如,并发的带外响应等特性,允许后台任务,如内容审核,在不干扰用户体验情况下运行。

开发者可以根据实际需求定制输入上下文,专注对话的特定部分,控制语音响应的触发时机,实现更准确、更无缝的交互体验。

偏好微调,提供新的自定义选项

另一个重要的新增功能是偏好微调,这是创新的模型定制方法,能根据用户与开发者偏好来优化模型表现。

与传统的依赖精确输入输出的监督式微调不同,偏好微调采用成对比较的方式来指导模型选择更优的响应。这种方法在处理主观性较强的任务时尤为有效,例如总结、创造性写作或是语气与风格更重要的应用场景。

与Rogo AI等合作伙伴的早期测试,已经展现出偏好微调的巨大潜力。

Rogo AI致力打造专为金融分析师服务的助手,他们报告称,与传统微调方法相比,偏好微调显著提升模型处理复杂、超出分布范围查询的能力,任务准确率提高5%以上。

这一功能,目前已在GPT-4o-2024-08-06与GPT-4o-mini-2024-07-18模型中可用,计划2025年初扩展至更多新模型上。

面向Go与Java开发者的新SDK

为进一步优化集成流程,OpenAI正拓展官方SDK产品线,现推出Go与Java版本的测试版SDK。

这些新增的SDK,与现有的Python、Node.js与.NET库相辅相成,极大拓宽开发者在不同编程环境中,与OpenAI模型进行交互的便利性。

Go SDK在构建可扩展的后端系统方面展现出独特优势,Java SDK专为依赖强类型与稳健生态系统的企业级应用而设计。

通过这一系列更新,OpenAI为开发者配备功能更为全面的工具箱,旨在助力他们开发出先进、高度可定制的AI应用程序。

无论是利用o1模型增强的推理能力,还是实时API的显著增强,亦或是灵活多样的微调选项,OpenAI最新产品均致力为企业提供更卓越的性能表现与更高成本效益,不断扩大AI集成的边界。

OpenAI 系列狂欢第十弹:ChatGPT热线来了,无需注册,打个电话就能用上AI

时间:2024年12月19日

来源:腾讯科技

字数:1,754

12月19日,OpenAI在12天发布会的第10天正式宣布,为让AI在全球范围内普及,进一步扩大旗舰产品覆盖范围,用户无需账号,可通过电话或WhatsApp消息与ChatGPT互动。

美国用户可以拨打1-800-CHATGPT,1-800-242-8478,通过OpenAI实时对话功能,高级语音模式,每月与广受欢迎的聊天机器人ChatGPT免费通话15分钟;其他国家用户,可以使用WhatsApp向同一号码发送消息,与聊天机器人互动。

目前,ChatGPT周活用户数已达3亿。

OpenAI将这一特性,定位为AI领域新入门者重要跳板。相较网络版ChatGPT,新服务提供更为简化版本,通过用户熟悉的途径,低成本方式让他们获得体验。

OpenAI建议,对寻求更全面功能、更高使用限额、更多个性化选项的现有用户,他们应继续通过传统方式使用他们的标准ChatGPT账户。

首次植入IM应用

无论用户身在何处,都可以通过WhatsApp与ChatGPT进行互动。这款聊天机器人,能回答用户问题,执行如语言翻译、话题解释与方向指引等任务。

全球用户,现在可以在WhatsApp上添加1-800-CHATGPT,1-800-242-8478为联系人,享受与AI无缝对话体验。

这是OpenAI首次将ChatGPT集成到WhatsApp平台,这项服务对用户完全免费。

这项创新功能,让用户能像与真人交流一样,与ChatGPT互动,无论他们是否拥有充足的数据流量。

WhatsApp作为全球用户量庞大的即时通讯应用,目前已拥有超过27亿活跃用户,预计2025年用户数将超过30亿。

对OpenAI,WhatsApp不仅是重要的接入点,尤其是在Meta AI技术不断普及背景下,它更是关键的推广平台。

WhatsApp的ChatGPT服务,不提供官方应用中的定制选项。

与电话服务类似,用户在WhatsApp使用ChatGPT时不需要账户,存在每日使用限制。

接近限制时,用户会收到通知,之后可以通过下载ChatGPT应用、或在桌面端,继续聊天以继续对话。

谷歌2007年曾推出过类似服务GOOG-411,它提供免费的语音查询服务。该服务在2010年,被谷歌无明确理由终止。

外界普遍猜测,谷歌可能已经达到潜在目的:收集足够的语音样本,以一步发展语音识别技术。

当时,谷歌时任副总裁玛丽莎·梅耶尔Marissa Mayer,曾直言不讳指出:我们语音识别专家说,若要我们打造真正先进的语音识别模型,我们需要收集大量音素,也就是由特定声音以特定语调发出的音节。

这意味着我们需要众多人在说话时,产生各种话语,以便我们能基于这些数据进行训练。

1-800-GOOG-411项目核心目标正是如此,搜集多样化语音样本,确保当我们接听来电或尝试从视频中提取声音时,能实现高精度的识别。

新功能工作原理

在因成本高昂或基础设施不足,难以获得稳定高速互联网连接的地区,人们更倾向使用WhatsApp这样应用,它们能在不依赖持续网络连接情况下提供数据服务。

通过WhatsApp,这些用户现在可以与ChatGPT进行互动,类似与真人对话一样自然,避免传统ChatGPT应用可能带来的网络负担,该服务使用的是与ChatGPT免费版本相同的GPT-4o-mini模型。

电话号码1-800-CHATGPT,1-800-242-8478,基于OpenAI实时API构建,WhatsApp功能是通过与WhatsApp API集成,由GPT-4o-mini模型提供支持。这样的设计,使得用户即使在数据连接受限情况下,也能享受到与AI对话的便利。

OpenAI举例说明,这项技术可以辅助用户进行创意写作或头脑风暴,提供建议,例如食谱、旅行灵感等,或者就新闻、爱好与日常琐事等话题进行交流。

OpenAI明确表示,这是试验性的发布,可能会根据需求实施速率限制,调整服务的可用性。

对寻求更完整体验、更多工具、更高使用限额与个性化选项的用户,建议继续通过他们账户直接使用ChatGPT。

扩大用户基数

OpenAI最近聘请首位首席营销官,表明计划增加广告支出,以扩大用户基础。

2024年10月,OpenAI在ChatGPT推出搜索功能,能更好与谷歌、微软Bing、Perplexity竞争,最近向全体用户推出该服务。

这一切都是OpenAI激进增长计划的一部分,OpenAI正在与亚马逊支持的Anthropic、马斯克的xAI、谷歌、Meta、微软、亚马逊在快速扩张的生成式AI市场中竞争,预计该市场未来10年内营收将超过1万亿美元。

OpenAI在10月完成最新一轮融资,估值达到1,570亿美元,还获得40亿美元循环信贷额度,总流动性超过100亿美元。

OpenAI首席产品官凯文·威尔Kevin Weil在直播活动中表示,OpenAI使命是让AGI惠及全人类,一部分就是尽可能让更多人能接触到它。今天,我们迈出下一步,将ChatGPT带到你的电话上。这种体验与OpenAI为ChatGPT提供的实时对话功能,高级语音模式,大致相同,只是没有多模态交互。ChatGPT能通过电话回应用户提出的问题,能处理如将句子翻译成不同语言等任务。

OpenAI透露,他们正在开发WhatsApp集成的新增功能,包括图像分析与网络搜索等,尚未公布这些新功能的发布时间表。

Weil提到这个项目起源于一次黑客周活动,团队在几周前才开始构建这个项目,我们对成果非常满意,他们非常努力推动项目上线。现在看到它已经实现,感觉非常激动,我们正致力让ChatGPT更广泛惠及大众。

OpenAI 系列狂欢第十一弹:ChatGPT集成于Mac软件,正从会话助手变身AI代理人

时间:2024年12月20日

来源:腾讯科技

字数:1,730

12月20日,OpenAI为期12天的发布会已步入第11天,发布MacOS桌面应用程序、与各类应用程序的互操作性功能,这将为AI Agent,或智能体的未来奠定基础,使ChatGPT变得更加强大,无缝集成到用户日常工作流程中。

第11天的发布会上,OpenAI首席产品官凯文·韦尔Kevin Weil,携手两位身着圣诞主题西装的同事,共同探讨最新推出的MacOS桌面应用程序。他们着重强调ChatGPT从单纯的会话助手,向更为强大的代理工具转变,意味着ChatGPT现在能代表用户执行更多任务,为用户带来前所未有的便捷体验。

首推三大功能

目前,用户已能通过MacOS桌面应用程序来查看与自动化他们的ChatGPT工作。

2025年还将有更多类似版本问世,在此之前,OpenAI已率先推出了以下三大功能:

第一,借助Work with Apps功能,用户现在能将ChatGPT接入更多编码应用程序,涵盖BBEdit、MatLab、Nova、Script Editor、TextMate、Android Studio、AppCode、CLion、DataGrip、GoLand、IntelliJ IDEA、PHPStorm、PyCharm、RubyMine、RustRover、WebStorm、Prompt、Warp等。

MacOS桌面应用的演示中,OpenAI展示AI如何深入一个应用程序,获取并理解上下文信息。一旦用户通过Work with Apps功能选定某个应用,ChatGPT便能立即接入,洞察应用内部,提供即时帮助。

ChatGPT不仅是简单的查看工具,它依托强大的AI模型,能执行多种功能。

Warp演示中,ChatGPT不仅能捕捉用户屏幕上内容,还能深入应用内部,浏览更多信息。

例如,处理长串代码时,ChatGPT能实现无滚动浏览,极大提升工作效率。

与Windows Recall功能相比,ChatGPT更注重与应用程序的实时协同工作,而非仅记录与构建回忆库。

另一场演示中,OpenAI团队将ChatGPT与XCode紧密结合,使得它可以在苹果开发应用程序中工作。用户只需简单提出请求,ChatGPT便能生成代码或解决编程难题。

OpenAI展示ChatGPT一项新技能:它能将生成的代码,直接嵌入XCode中,这一功能有望极大简化工作流程。

实时演示中,ChatGPT代码尝试遭遇两次失败,第三次尝试时,OpenAI团队成功让代码运行起来。

第二,对利用ChatGPT进行写作的用户,OpenAI宣布MacOS桌面应用程序现已实现对Apple Notes、Quip、Notion的支持。

现场演示中,OpenAI团队正浏览一份文档,该文档旨在为Notion中徒步旅行活动制定指南。

有了这个新功能,ChatGPT得以与Notion无缝协作。现场演示聚焦文档中特定文本段落,设定任务为补充这些对话要点。

用户可利用ChatGPT搜索功能来生成回应。例如,演示中,它根据所选文本生成关于诺顿皇帝诺顿一世的对话要点,附上引用、来源。

第三,除文本选择、复制粘贴的传统操作外,MacOS桌面应用支持高级语音模式,能与其他应用程序协同工作。

在此模式下,用户可在Apple Notes中设定节日派对歌单,通过ChatGPT征询圣诞老人对候选歌曲的意见。

ChatGPT甚至能指出用户错误,如将圣诞歌曲《Frosty the Snowman》误写为《Freezy the Snowman》。

这些功能现已正式发布,用户只需确保拥有最新版本MacOS应用程序,订阅ChatGPT Plus、ChatGPT Pro、ChatGPT Team、ChatGPT Enterprise或ChatGPT Edu中任一服务,即可立即体验。

隐私保护方面,OpenAI特别强调,ChatGPT仅会在用户手动触发情况下,与应用程序进行交互。

一旦该功能被激活,用户将明确知晓哪些内容将被附加到消息中,有效缓解隐私方面担忧。

又曝AGI彩蛋

OpenAI在第11天发布会最后表示:第12天,我们准备极其特别的内容,千万不要错过哦。

演示屏幕的一角,可以看到AGI_Interface.swift的文件夹,这已经不是过去12天里首次出现此类惊喜了。

几天前,OpenAI揭晓 超级秘密AGI的日历活动彩蛋,进一步提升人们对12天系列公告的期待,大家纷纷猜测这些公告是否在共同描绘一幅通往通用智能的宏伟蓝图。

OpenAI透露,ChatGPT的Windows应用程序将很快发布。

更令人震惊的消息是,他们确认新智能体的存在,预计2025年发布。

OpenAI表示:随着我们模型变得越来越强大,ChatGPT将展现出越来越强的自主性。

几周前,有传闻称OpenAI正在研发 Operator的代理式AI,在第11天发布活动上仅对这一计划进行确认。或许,这一举动背后,有着来自竞争对手的压力影响。

近期,谷歌宣布Project Mariner项目,该智能体能代表用户在网页浏览器选项卡上进行导航,执行操作。

微软推出Copilot Vision功能,它能在用户的网络浏览器中查看内容,提供相关信息。

Anthropic更早之前,发布Computer Use功能,它在时间上领先其他同类工具。

现在,OpenAI的12天系列活动仅剩最后一天,他们似乎将最精彩的部分留到最后,一个全新、强大的前沿模型即将亮相。

我们将拭目以待,看OpenAI究竟带来什么新产品,这个新模型与之前o1模型有何不同。

一些基准测试已经表明,o1模型是迄今为止最强大的AI模型之一,甚至在编码任务方面超越Claude 3.5。

近日,X平台一位用户据称发现GPT-4.5模型,该模型目前仅提供有限预览功能。

现在,所有的目光都聚焦在OpenAI,大家都翘首以待,看他们在发布会活动的最后一天将会带来怎样的惊喜。

OpenAI 系列狂欢第十二弹:OpenAI推出o3,向AGI迈出关键一步

时间:2024年12月21日

来源:腾讯科技

字数:2,261

2024年12月21日,OpenAI为期12天发布会活动的最后一天,正式发布备受期待的o3系列模型,包括o3与o3-mini。

o3是一个非常强大的模型,在编码、数学、 ARC-AGI 基准测试等多个基准上超过了 OpenAI 此前的 o1 模型o1得分25%,o3得分87.5%)。

o3-mini是 o3 更经济高效且性能导向的版本,在成本与延迟方面比 o1-mini 低得多,提供类似的功能。

与英国电信公司O2可能存在版权/商标冲突,将其命名为o3。

OpenAI正向安全研究人员开放o3与o3-mini早期访问,预计o3-mini将于2025年1月底左右发布,o3稍后。

测试概览

SWE-Bench测试:71.7%,o1得分48.9%。

Codeforces评分:2,727,相当于全球人类程序员编码竞赛中,排名第175位。

AIME:96.7%,意味着在数学测试中只错1道题。

博士水平的科学问题GPQA:87.7%,博士生一般得分70%。

最难的前沿数学测试:25.2%,其他模型没有超过2%,数学天才陶哲轩说该测试可能难住AI好几年。

ARC-AGI:87.5%,o1得分25%。

惊人的测试分数,这回真的远超普通博士生

o3 系列模型迈向AGI,基准测试结果惊人

我们挑选最具代表性的测试给大家进行简要介绍,以此说明此次o3测试分数的震撼程度。

CodeForces 测试

全球顶尖的编程竞赛平台CodeForces上,o3系列模型展现卓越的编程能力。o3在CodeForces中评分高达2,727,超越大部分人类程序员。

目前,只有不到200名顶级人类程序员能达到或超过这一评分。这一成绩不仅证明o3在编程任务上强大实力,也显示在解决复杂算法问题时,接近甚至超越人类潜力。

ARC-AGI 测试

ARC-AGI人工通用智能评估基准测试,由Keras之父François Chollet发起,旨在评估AI系统在面对未见过的新任务时适应能力。

ARC-AGI测试的核心在于,设计的任务往往需要深度逻辑推理与创新思维,这使得它成为评估AI系统通用智能能力的重要工具。

o3系列在这一测试中,取得显著成绩,在高算力配置下,o3达到87.5%得分,在低算力配置下,取得75.7%的优异成绩。

这一成绩远超o1系列,后者在同一测试中得分仅为25%。

François Chollet对此评价道,这是令人惊讶、重要的阶跃式提升,展示GPT系列模型前所未有的新型任务适应能力。

作为对比,ARC-AGI-1从2020年GPT-3的0%,提升到2024年GPT-4o的5%,历时4年。

随着o3出现,关于AI能力的所有既有认知都需要重新评估。

ARC-AGI测试中表现出色,并不意味着o3已达到AGI水平,它仍会在一些非常简单的任务中失败,与人类智能有根本性差别。

Epoch AI Frontier Math 测试

Epoch AI Frontier Math测试,被誉为当今最具挑战性的数学基准测试之一,涵盖最新的前沿数学问题。

著名数学家陶哲轩Terence Tao对此评价道:这项测试,可能会让AI难住好几年。

o3在这一测试中,突破以往记录,解决25.2%的问题,其他模型得分均未超过2%。

这一成绩,不仅证明o3在数学推理方面强大能力,也展示在处理高度复杂与抽象问题时的潜力。

Box CEO亚伦·列维AaronLevie在X称赞道:OpenAI刚宣布他们新推理模型o3,它在基准测试中表现似乎异常出色,目前,AI发展没有任何放缓的迹象。

谷歌登基几天后,OpenAI重回铁王座

前几天,谷歌凭借新一代大模型Gemini2.0与视频生成模型Veo2.0发布,曾一度在AI牌桌上大杀四方。

随着OpenAI推出o3系列模型,这场博弈再度发生戏剧性逆转。

谷歌掀了AI圈牌桌,全力狙击OpenAI

OpenAI为期12天发布会进行到第5天时,谷歌以迅雷不及掩耳之势发布重磅产品,Gemini 2.0 Flash。

这一版本不仅在速度上实现翻倍提升,还在多模态输出方面取得突破性进展,支持原生图像生成与音频输出,进一步拓展AI模型应用边界。

Gemini2.0不仅是升级版的语言模型,更是具备主动思考与多任务处理能力的统一底层模型。

谷歌CEO Pichai Sundararajan在发布会上表示:如果说Gemini1.0是关于整理与理解信息,Gemini2.0是要让这些信息真正变得有用。

配合新推出的多模态实时API,Gemini2.0能够处理实时音频与视频流输入,支持多种工具的组合使用,极大增强在复杂任务中适应能力。

谷歌发了新模型,证明Sora是最菜的。

你方唱罢我登场,OpenAI重回铁王座

谷歌Deepmind研究员在12月13号吐槽,OpenAI这回发布,没有截胡到他们,OpenAI的研究人员在下面回复,好戏还在后面。

OpenAI发布GPT-4之后,一直占据领先地位,Google、Anthropic、Meta等竞争对手同样咬的很紧。

今天,随着OpenAI发布o3系列模型,宣布在2024年AI军备竞赛中,再度一骑绝尘,重回铁王座。

OpenAI研究高级副总裁马克·陈Mark Chen所言,这标志着我们在实用性的前沿上攀登。Sam Altman补充说,这个模型在编程方面非常出色。

3个月前,OpenAI发布o1,今天OpenAI发布o3,验证AI进步趋势,势不可挡。

从ARC-AGI测试该测试的分数看,我们能够很直观发现,AI发展趋势没有放缓,这或许是对2024年不停出现AI泡沫论最有力的回应。

GPT-2(2019):0%

GPT-3(2020):0%

GPT-4(2023):2%

GPT-4o(2024):5%

o1-preview(2024):21%

o1 high(2024):32%

o1 Pro(2024):~50%

o3 tuned low(2024):76%

o3 tuned high(2024):87%

OpenAI研究员John Hallman,曾在Google Brain实习、普林斯顿大学数学系学生、IMO银牌得主说:当Sam、我们研究人员说AGI即将到来时,我们不是为了卖你神奇的药水、2,000美元的订阅服务,或者诱使你在我们下一轮融资中投资,而是AGI时代真的要来了。

这意味着AI安全性问题,将不再是假设性问题,一个会撒谎的高智商、能调动大量资源的AI,如果没有万全的安全审核机制,将造成什么样的后果,我们不得而知。

1年前,OpenAI首席科学家Ilya Sutskever与Sam Altman意见不合,离开OpenAI,当时网友猜测Ilya看到某种AGI的可能,认为安全风险极高,不宜推出。

前几天,Anthropic最新论文表明,AI模型可以假装对齐,在训练期间假装遵循训练规则,在部署时又恢复到原来行为,马斯克也对此有相应的评价。

几天过去,o3到来,或许与AI的智能性相比,安全性问题,如今应变成最高优先的问题。

当前,OpenAI已向安全研究人员与合作伙伴开放测试申请,旨在通过更多实际应用测试,进一步提升模型安全性与可靠性。

高昂的价格

除惊叹o3惊人表现外,很多网友对o3可能会导致的高昂任务成本表示担忧。

2024 年,AI发展放缓了吗

2024年,AI领域经历一场前所未有的激烈军备竞赛。

这一年,不仅是技术飞跃,更是战略与创新的较量。

每一个新产品的发布,都牵动整个行业神经,OpenAI在年底通过o3系列的卓越表现,重新杀回铁王座,再一次将AGI的路,向前推动一步。

回顾2年前,恍如昨日,我们正在见证历史,亲身经历新一轮技术革命。


六合年度报告全库会员,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买

智能时代专题,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买


智能时代专题第二季,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买


智能时代专题第一季,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买


六合商业研选付费专题报告,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买

元宇宙专题,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买

头号玩家第二季,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买

头号玩家第一季,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买

智能电动汽车专题,欢迎扫描识别下方图中二维码或点击文末“阅读原文”购买

相关研报:

【智能时代】现象级游戏《黑神话:悟空》的思考,游戏二元属性,文化与科技

【智能时代】自动驾驶:汽车iPhone时刻,中国三大流派演化形成中

诸神之战:美国科技巨头,从春秋五霸进入战国七雄|GBAT 2023 大湾区智能时代产业峰会

人类未来文明三部曲之二:智能时代专题预售开启,奇点临近,未来已来

九宇资本赵宇杰:智能时代思考, 认知思维,存在原生、降维、升维三波认知红利

九宇资本赵宇杰:智能时代思考,以史为鉴,科技浪潮,从互联网到AI

九宇资本赵宇杰:智能时代思考,宇宙视角,从碳基生物,到硅基智能体

人类未来文明三部曲之一:元宇宙专题预售开启,59期45万字

九宇资本赵宇杰:1.5万字头号玩家年度思考集,科技创新,无尽前沿

九宇资本赵宇杰:1.5万字智能电动汽车年度思考集,软件定义,重塑一切

【重磅】前沿周报:拥抱科技,洞见未来,70期合集打包送上

【重磅】六合年度报告全库会员正式上线,5年多研究成果系统性交付

【智能电动汽车专题预售】百年汽车产业加速变革,智能电动汽车时代大幕开启

【头号玩家第一季预售】:科技巨头探索未来,头号玩家梯队式崛起

【头号玩家第二季预售】:科技创新带来范式转换,拓展无尽新边疆

【首份付费报告+年度会员】直播电商14万字深度报告:万亿级GMV风口下,巨头混战与合纵连横

【重磅】科技体育系列报告合集上线,“科技+体育”深度融合,全方位变革体育运动

【重磅】365家明星公司,近600篇报告,六合君4年多研究成果全景呈现

九宇资本赵宇杰:CES见闻录,开个脑洞,超级科技巨头将接管一切

【万字长文】九宇资本赵宇杰:5G开启新周期,进入在线世界的大航海时代|GBAT 2019 大湾区5G峰会

九宇资本赵宇杰:抓住电子烟这一巨大的趋势红利,抓住产业变革中的变与不变

【IPO观察】第一季:中芯国际、寒武纪、思摩尔、泡泡玛特、安克创新等11家深度研报合集

【IPO观察】第二季:理想、小鹏、贝壳、蚂蚁、Snowflake、Palantir等12家公司深度研报合集

【IPO观察】第三季:Coinbase、Roblox、快手、雾芯科技等12家公司深度研报合集

【重磅】年度观察2019系列合集:历时3个多月,超20万字近500页,复盘过去,展望未来,洞悉变与不变

【珍藏版】六合宝典:300家明星公司全景扫描,历时3年,210万字超5,000页,重磅推荐

九宇资本赵宇杰:对智能电动汽车产业的碎片化思考

九宇资本赵宇杰:九宫格分析法,语数外教育培训领域的道与术

【2023回乡见闻录】90、00后小伙伴们万字记录,生活回归正轨,春节年味更浓

【2022回乡见闻录】20位90、00后2万字,4国13地,全方位展现国内外疫情防疫、春节氛围、发展现状差异

【2021回乡见闻录】22位90后2万字,就地过年与返乡过年碰撞,展现真实、立体、变革的中国

【2020回乡见闻录】20位90后2万字,特殊的春节,时代的集体记忆

【重磅】22位“90后”2万字回乡见闻录,讲述他们眼中的中国县城、乡镇、农村

六合君3周岁生日,TOP 60篇经典研报重磅推荐

下午茶,互联网世界的三国杀

5G助推AR开启新产业周期,AR眼镜开启专用AR终端时代

新商业基础设施持续丰富完善,赋能新品牌、新模式、新产品崛起,打造新型多元生活方式

【重磅】中国新经济龙头,赴港赴美上市报告合辑20篇

知识服务+付费+音频,开启内容生产新的产业级机遇,知识经济10年千亿级市场规模可期

从APP Store畅销榜4年更替,看内容付费崛起

新三板破万思考:新三板日交易量10年100倍?

九宇资本赵宇杰:科技改变消费,让生活更美好|2017 GNEC 新经济新消费峰会

九宇资本赵宇杰:创业时代的时间法则,开发用户平行时间|2016 GNEC 新经济新智能峰会


九宇资本赵宇杰:互联网引领新经济,内容创业连接新生态 |2016 GNEC 新经济新营销峰会


请务必阅读免责声明与风险提示







请到「今天看啥」查看全文