OpenAI推出o3模型系列(因为o2和英国电信商
命名有冲突,所以跳过了o2),包括o3,o3mini ,o3 mini low(低计算力),o3mini medium(中等计算力),o3mini high(高计算力)
废话不多多说,直接看o3硬核测试表现
o3在ARC-AGI(通用人工智能评估基准)上取得了惊人的高达87.5%的分数,而人类是85%!
今天,OpenAI 发布了其下一代推理模型 o3。我们与 OpenAI 合作,在 ARC-AGI 上对其进行了测试,我们相信它在让人工智能适应新任务方面取得了重大突破。在低计算模式下(每个任务的计算费用为 20 美元),它在半私人评估中的得分率为 75.7%;在高计算模式下(每个任务的计算费用为数千美元),它的得分率为 87.5%。它的成本很高,但并不只是蛮干 -- 这些能力是全新的领域,需要科学界的认真关注”
那么,这就是 AGI 吗?
虽然新模型令人印象深刻,是通往 AGI 道路上的一个重要里程碑,但我并不认为这就是 AGI -- 仍然有相当数量非常简单的 ARC-AGI-1 任务是 o3 无法解决的,而且我们有早期迹象表明,ARC-AGI-2 对 o3 来说仍然极具挑战性。这表明,在不涉及专业知识的情况下,创建对人类来说容易但对人工智能来说不可能的不饱和、有趣的基准仍然是可行的。当创建这样的测试变得完全不可能时,我们将拥有 AGI”
这是否意味着 ARC-AGI 基准已经饱和?是的
-- 该基准的 v1 版本已经开始饱和。在今年的 Kaggle 竞赛中已经出现了这种迹象--所有参赛者的合计得分将达到 81%。明年的竞赛将在 ARC-AGI-2 上进行,这是数据集的更新版本,与 v1 版保持了相同的格式,但减少了容易被暴力破解的任务。早期迹象表明,ARC-AGI-v2 将代表最先进技术的全面重置,对于 o3 来说,难度仍然非常大。与此同时,聪明人或由普通人组成的小型小组仍能获得 95% 以上的分数”
这对未来的 AGI 研究意味着什么?
对我来说,主要的未决问题是 o3 背后技术的扩展瓶颈会在哪里。举例来说,如果人类标注的CoT数据是一个主要瓶颈,那么其能力就会像LLM一样迅速达到顶峰(直到下一个架构出现)
分析新系统的优势和局限性也极为重要。以下是一些 o3 在高计算设置下无法解决的任务示例(即使它在此过程中生成了数百万个 CoT 搜索令牌,并消耗了数千美元的计算资源)。有趣的是,第一个任务就是我们在大学巡回演讲中用来说明 "人类容易,人工智能难 "的任务
https://github.com/arcprizeorg/model_baseline/tree/main/results......如果您对该主题感兴趣,可以看看对这些数据的分析
o3在最难的前沿数学基准测试(EpochAI陶哲轩认证)中实现了重大突破
o3同时在其他技术基准如AIME(美国数学竞赛)和GPQA-Diamond上也达成了
SOTA,在 AIME 2024 上:o3 获得了 96.7%的分数,只错过了一个问题 ,在 GPQA Diamond 上:o3 获得了 87.7%的分数,远高于人类专家的表现
o3其他表现:
SWE-bench O3有70分真的离谱,推理这路上也算看到希望了,在 Codeforces(编程测试) 上:o3 获得了 2727 分,超过了 OpenAI 首席科学家的 2665 分
Sam Altman 喊话安全人员进行测试
如果你是安全研究员,请考虑申请帮助测试 o3-mini 和 o3
测试申请地址:
https://openai.com/index/early-access-for-safety-testing/
O3 Mini 1月底就可以用
阅读报告全文,请访问欧米伽研究所的“未来知识库”
https://wx.zsxq.com/group/454854145828
未来知识库
是“
欧米伽
未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。
目前拥有超过8000
篇重要资料。
每周更新不少于100篇世界范围最新研究
资料
。
欢迎扫描二维码或访问
https://wx.zsxq.com/group/454854145828
进入。
截止到11月25日 ”未来知识库”精选的100部前沿科技趋势报告
-
Air Street Capital《2024 年人工智能现状报告》
-
未来今日研究所:2024 技术趋势报告 - 广义计算篇
-
科睿唯安中国科学院 2024 研究前沿热度指数报告
-
文本到图像合成:十年回顾
-
《以人为中心的大型语言模型(LLM)研究综述》
-
经合组织 2024 年数字经济展望报告加强连通性创新与信任第二版
-
波士顿咨询 2024 全球经济体 AI 成熟度矩阵报告
-
理解世界还是预测未来?世界模型的综合综述
-
Google Cloud CSA2024 AI 与安全状况调研报告
-
英国制造商组织 MakeUK2024 英国工业战略愿景报告从概念到实施
-
花旗银行 CitiGPS2024 自然环境可持续发展新前沿研究报告
-
国际原子能机构 2024 聚变关键要素报告 - 聚变能发展的共同愿景
-
国际可再生能源署 IRENA2024 年全球气候行动报告
-
Cell: 物理学和化学 、人工智能知识领域的融合
-
智次方 2025 中国 5G 产业全景图谱报告
-
未来今日研究所:2024 技术趋势报告 - 移动性,机器人与无人机篇
-
Deepmind:AI 加速科学创新发现的黄金时代报告
-
PitchBookNVCA2024 年第三季度全球风险投资监测报告
-
德科 2024 年未来全球劳动力报告
-
高工咨询 2024 年协作机器人产业发展蓝皮书
-
国际能源署 IEA2024 年全球能源效率报告
-
基因慧基因行业蓝皮书 2024 - 2025
-
普华永道 PwC2024 全球经济犯罪调查英国报告 - 智对风险直面挑战
-
中国互联网协会 2024 面向未来网络的数字孪生城市场景应用白皮书
-
中移智库 2024 先进感知新技术及新应用白皮书
-
智次方研究院 2025 中国 AIoT 产业全景图谱报告
-
未来今日研究所:2024 技术趋势报告 - 人工智能篇
-
国际电联:迈向衡量数字经济的通用框架的路线图
-
联合国粮食与农业组织:2024 年世界粮食安全和营养状况
-
大语言模型综述
-
李飞飞等,AI 智能体:探索多模式交互的前景综述
-
哈尔滨工业大学 - ChatGPT 调研报告
-
2024《美国核部署战略报告》最新文件
-
清华大学:AIGC 发展研究 3.0 发布版 b 版
-
OpenAI:2024 年 OpenAI o1 大模型技术报告
-
Verizon2024 年世界支付安全报告
-
皇家学会哲学学报 从复杂系统角度评估人工智能风险
-
复旦大学 大模型 AI 代理的兴起和潜力:综述
-
经合组织 OECD2024 年气候行动监测报告
-
Wevolver2024 年边缘人工智能现状报告 - 探索各行业边缘 AI 应用动态
-
2024 全球人形机器人产品数据库报告 - 人形机器人洞察研究 BTIResearch
-
《全球金融稳定报告》 把舵定航 不确定性、人工智能与金融稳定
-
瑞士洛桑联邦理工学院 《人工智能中的 - 创造力:进展与挑战》
-
《你所需要知道的理 - 论:人工智能、人类认知与决策》牛津大学最新 53 页报告
-
世界经济论坛 新兴技术时代的网络弹性导航:应对复杂挑战的协作解决方案 2024
-
ADL 理特咨询 2024 汽车出行未来展望报告
-
2024 中国硬科技创新发展白皮书 - 开辟未来产业新赛道
-
科学时代的大语言模型中的人工智能
-
Gartner2025 年重要战略技术趋势报告
-
CBInsights2024 年第三季度全球人工智能投融资状况报告
-
TrendHunter2025 年全球趋势报告 - 全行业顶级创新和变革趋势前瞻
-
天津大学 2024 大模型轻量化技术研究报告
-
欧洲海洋局 2024 导航未来报告将海洋置于更广泛的地球系统中第六版
-
美国安全与新兴技术中心 2024 AI 生成代码的网络安全风险研究报告
-
国际原子能机构 2024 年世界聚变展望报告
-
复旦大学 2024 大语言模型的能力边界与发展思考报告
-
安盛 AXA2024 年气候与生物多样性报告气候过渡计划路线图
-
YouGov2024 美国公众对人工智能 AI 的态度调研报告
-
麦肯锡中国报告:《中国与世界》完整版
-
麦肯锡全球研究所 2024 下一代竞技场报告 - 重塑全球经济的 18 个新兴行业领域
-
Project Sid,一个旨在模拟多智能体交互以研究 AI 文明的项目
-
德国研究与创新专家委员会 德国研究创新与科技成果报告