🔗《2024 中国开源开发者报告》正式发布
在线阅读:https://talk.gitee.com/report/china-open-source-2024-annual-report.pdf
昨天奥特曼在 X 上称将发大招,然后 OpenAI 发布了 o3-mini (看似没有很大),他们随即做了一个产品发布活动。
然后奥特曼在 Reddit 上回答网友问题,有网友询问能否考虑开放一些权重模型或者相关研究时,奥特曼称:OpenAI 在开源问题上一直处于“历史错误的一边”。
所以我觉得,如果是大招的话,这个才是大家期待的大招!!!
下面是来自 TechCrunch 的报道(使用的是我正在开发的一个小软件,基于 Gitee AI 提供的 Qwen7-7b 的模型 API 翻译):
在结束一天的产品发布活动后,OpenAI的研究员、工程师和高级管理人员,包括OpenAI首席执行官Sam Altman,于周五在Reddit上进行了广泛的AMA(Ask Me Anything,即“问我任何问题”)活动。
OpenAI 公司目前正处在一个微妙的位置。它正在与人们认为它在人工智能竞赛中落后于像 DeepSeek 这样的中国公司(关于 DeepSeek 的所有信息)的看法作斗争,OpenAI 指控 DeepSeek 可能窃取了其知识产权。ChatGPT 的制造商一直在努力加强与华盛顿的关系,同时追求一个雄心勃勃的数据中心项目,据报道还在为历史上最大的一轮融资之一奠定基础。
Altman 承认 DeepSeek 减少了 OpenAI 在 AI 领域的领先优势,他还表示,他认为 OpenAI 在开源其技术方面“站在了历史的错误一边”。虽然 OpenAI 之前曾开源过模型,但公司通常更倾向于专有、闭源的软件开发方法。
“[我个人认为我们需要] 找出不同的开源策略,” Altman 说。“OpenAI 中的并非所有人都持有这种观点,这也不是我们当前的最高优先级 […] 我们将生产出更好的模型 [未来],但我们不会像过去几年那样保持那么大的领先优势。”
在随后的回复中,OpenAI 的首席产品官 Kevin Weil 表示,OpenAI 正在考虑开源那些不再是前沿技术的旧模型。“我们肯定会考虑做更多这样的事情,” 他说,但没有透露更多细节。
除了敦促OpenAI重新考虑其发布理念之外,Altman 表示 DeepSeek 还推动公司可能更多地透露其所谓的推理模型,例如今天发布的 o3-mini 模型,展示它们的“思考过程”。目前,OpenAI 的模型隐藏了它们的推理,这种策略旨在防止竞争对手刮取训练数据用于自己的模型。相比之下,DeepSeek 的推理模型 R1 展示了其完整的思维链。
“Weil 补充说:“我们正在努力展示比今天更多的内容——[展示模型思考过程] 将会非常非常快。“关于所有这些——展示所有思维链会导致竞争蒸馏,但我们也知道人们(至少是高级用户)想要它,所以我们会找到平衡它的正确方法。”
Altman 和 Weil 试图消除有关 ChatGPT(OpenAI 通过该聊天应用推出许多模型的平台)价格将会上涨的谣言。Altman 表示,如果可能的话,他希望随着时间的推移让 ChatGPT 变得更“便宜”。
Altman 此前曾表示,OpenAI 在其最昂贵的 ChatGPT 计划 ChatGPT Pro 上亏损,该计划每月费用为 200 美元。
在一条与之相关的帖子中,Weil 表示,OpenAI 继续看到更多计算能力带来“更好”和性能更强的模型的证据。这就是部分促使 Stargate 项目(OpenAI 最近宣布的巨型数据中心项目)的原因,Weil 说。他还继续表示,服务不断增长的用户群体也在 OpenAI 内部推动了计算需求。
关于这些强大模型可能带来的递归自我改进,Altman 表示,他认为“快速起飞”的可能性比他之前认为的要大。递归自我改进是一个过程,其中人工智能系统可以在没有人类输入的情况下提高自己的智能和能力。
当然,值得注意的是,Altman 以过度承诺而闻名。不久前,他降低了 OpenAI 对 AGI 的期望。
一位 Reddit 用户询问 OpenAI 的模型,无论是否自我改进,是否会被用于开发破坏性武器——特别是核武器。本周,OpenAI 宣布与美国政府合作,将它的模型提供给美国国家实验室,部分原因是为了核防御研究。
Weil 表示他信任美国政府。
“我已经认识了这些科学家,他们不仅是世界级的研究者,还是AI领域的专家,”他说。“他们了解这些模型的力量和局限性,我认为他们不可能仅仅将某个模型输出直接应用到核计算中。他们聪明、基于证据,并且进行了大量的实验和数据工作来验证他们所有的成果。”
OpenAI 团队被问到了一些更技术性的问题,比如 OpenAI 的下一个推理模型 o3 将何时发布(Altman 表示:“超过几周,不到几个月”),公司下一个旗舰“非推理”模型 GPT-5 可能何时落地(Altman 表示:“目前还没有时间表”),以及 OpenAI 可能何时揭开 DALL-E 3 的继任者的面纱,DALL-E 3 是公司推出的图像生成模型。
DALL-E 3 大约两年前发布,已经显得有些过时了。自从 DALL-E 3 发布以来,图像生成技术已经取得了飞跃性的进步,该模型在许多基准测试中已经不再具有竞争力(查看详情)。
关于 DALL-E 3 的后续产品,Weil 表示:“是的!我们正在开发它。我认为它将值得等待。”