专栏名称: 人工智能学家
致力成为权威的人工智能科技媒体和前沿科技研究机构
目录
相关文章推荐
爱可可-爱生活  ·  【[118星]OpenLDK:用Common ... ·  11 小时前  
AI前线  ·  “李飞飞团队 50 美元炼出 ... ·  17 小时前  
宝玉xp  ·  转发微博-20250205142851 ·  2 天前  
爱可可-爱生活  ·  关键或许不在于对抗AI的“幻觉”,而是要重塑 ... ·  2 天前  
量子位  ·  华为昇腾推理DeepSeek-R1,性能比肩 ... ·  3 天前  
51好读  ›  专栏  ›  人工智能学家

重磅!OpenAI推出o3模型系列:彻底颠覆AI怀疑论者,AGI评测基准达到惊人87.5%

人工智能学家  · 公众号  · AI  · 2024-12-21 16:35

正文

来源:AI寒武纪
OpenAI推出o3模型系列(因为o2和英国电信商 命名有冲突,所以跳过了o2),包括o3,o3mini ,o3 mini low(低计算力),o3mini medium(中等计算力),o3mini high(高计算力)

废话不多多说,直接看o3硬核测试表现

o3在ARC-AGI(通用人工智能评估基准)上取得了惊人的高达87.5%的分数,而人类是85%!

ARC-AGI 创始人对这一测试结果的详细解读:

今天,OpenAI 发布了其下一代推理模型 o3。我们与 OpenAI 合作,在 ARC-AGI 上对其进行了测试,我们相信它在让人工智能适应新任务方面取得了重大突破。在低计算模式下(每个任务的计算费用为 20 美元),它在半私人评估中的得分率为 75.7%;在高计算模式下(每个任务的计算费用为数千美元),它的得分率为 87.5%。它的成本很高,但并不只是蛮干 -- 这些能力是全新的领域,需要科学界的认真关注”

那么,这就是 AGI 吗? 虽然新模型令人印象深刻,是通往 AGI 道路上的一个重要里程碑,但我并不认为这就是 AGI -- 仍然有相当数量非常简单的 ARC-AGI-1 任务是 o3 无法解决的,而且我们有早期迹象表明,ARC-AGI-2 对 o3 来说仍然极具挑战性。这表明,在不涉及专业知识的情况下,创建对人类来说容易但对人工智能来说不可能的不饱和、有趣的基准仍然是可行的。当创建这样的测试变得完全不可能时,我们将拥有 AGI”

这是否意味着 ARC-AGI 基准已经饱和?是的 -- 该基准的 v1 版本已经开始饱和。在今年的 Kaggle 竞赛中已经出现了这种迹象--所有参赛者的合计得分将达到 81%。明年的竞赛将在 ARC-AGI-2 上进行,这是数据集的更新版本,与 v1 版保持了相同的格式,但减少了容易被暴力破解的任务。早期迹象表明,ARC-AGI-v2 将代表最先进技术的全面重置,对于 o3 来说,难度仍然非常大。与此同时,聪明人或由普通人组成的小型小组仍能获得 95% 以上的分数”

这对未来的 AGI 研究意味着什么? 对我来说,主要的未决问题是 o3 背后技术的扩展瓶颈会在哪里。举例来说,如果人类标注的CoT数据是一个主要瓶颈,那么其能力就会像LLM一样迅速达到顶峰(直到下一个架构出现)

分析新系统的优势和局限性也极为重要。以下是一些 o3 在高计算设置下无法解决的任务示例(即使它在此过程中生成了数百万个 CoT 搜索令牌,并消耗了数千美元的计算资源)。有趣的是,第一个任务就是我们在大学巡回演讲中用来说明 "人类容易,人工智能难 "的任务

另外两个例子。您可以在这里找到完整的测试数据:

https://github.com/arcprizeorg/model_baseline/tree/main/results......如果您对该主题感兴趣,可以看看对这些数据的分析

o3在最难的前沿数学基准测试(EpochAI陶哲轩认证)中实现了重大突破

o3同时在其他技术基准如AIME(美国数学竞赛)和GPQA-Diamond上也达成了 SOTA,在 AIME 2024 上:o3 获得了 96.7%的分数,只错过了一个问题 ,在 GPQA Diamond 上:o3 获得了 87.7%的分数,远高于人类专家的表现

o3其他表现:

SWE-bench O3有70分真的离谱,推理这路上也算看到希望了,在 Codeforces(编程测试) 上:o3 获得了 2727 分,超过了 OpenAI 首席科学家的 2665 分

o3mini表现

Sam Altman 喊话安全人员进行测试

如果你是安全研究员,请考虑申请帮助测试 o3-mini 和 o3

测试申请地址:

https://openai.com/index/early-access-for-safety-testing/

O3 Mini 1月底就可以用

阅读报告全文,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828


未来知识库 是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。 目前拥有超过8000 篇重要资料。 每周更新不少于100篇世界范围最新研究 资料 欢迎扫描二维码或访问 https://wx.zsxq.com/group/454854145828 进入。



截止到11月25日 ”未来知识库”精选的100部前沿科技趋势报告

  1. Air Street Capital《2024 年人工智能现状报告》

  2. 未来今日研究所:2024 技术趋势报告 - 广义计算篇

  3. 科睿唯安中国科学院 2024 研究前沿热度指数报告

  4. 文本到图像合成:十年回顾

  5. 《以人为中心的大型语言模型(LLM)研究综述》

  6. 经合组织 2024 年数字经济展望报告加强连通性创新与信任第二版

  7. 波士顿咨询 2024 全球经济体 AI 成熟度矩阵报告

  8. 理解世界还是预测未来?世界模型的综合综述

  9. Google Cloud CSA2024 AI 与安全状况调研报告

  10. 英国制造商组织 MakeUK2024 英国工业战略愿景报告从概念到实施

  11. 花旗银行 CitiGPS2024 自然环境可持续发展新前沿研究报告

  12. 国际原子能机构 2024 聚变关键要素报告 - 聚变能发展的共同愿景

  13. 国际可再生能源署 IRENA2024 年全球气候行动报告

  14. Cell: 物理学和化学 、人工智能知识领域的融合

  15. 智次方 2025 中国 5G 产业全景图谱报告

  16. 未来今日研究所:2024 技术趋势报告 - 移动性,机器人与无人机篇

  17. Deepmind:AI 加速科学创新发现的黄金时代报告

  18. PitchBookNVCA2024 年第三季度全球风险投资监测报告

  19. 德科 2024 年未来全球劳动力报告

  20. 高工咨询 2024 年协作机器人产业发展蓝皮书

  21. 国际能源署 IEA2024 年全球能源效率报告

  22. 基因慧基因行业蓝皮书 2024 - 2025

  23. 普华永道 PwC2024 全球经济犯罪调查英国报告 - 智对风险直面挑战

  24. 中国互联网协会 2024 面向未来网络的数字孪生城市场景应用白皮书

  25. 中移智库 2024 先进感知新技术及新应用白皮书

  26. 智次方研究院 2025 中国 AIoT 产业全景图谱报告

  27. 未来今日研究所:2024 技术趋势报告 - 人工智能篇

  28. 国际电联:迈向衡量数字经济的通用框架的路线图

  29. 联合国粮食与农业组织:2024 年世界粮食安全和营养状况

  30. 大语言模型综述

  31. 李飞飞等,AI 智能体:探索多模式交互的前景综述

  32. 哈尔滨工业大学 - ChatGPT 调研报告

  33. 2024《美国核部署战略报告》最新文件

  34. 清华大学:AIGC 发展研究 3.0 发布版 b 版

  35. OpenAI:2024 年 OpenAI o1 大模型技术报告

  36. Verizon2024 年世界支付安全报告

  37. 皇家学会哲学学报 从复杂系统角度评估人工智能风险

  38. 复旦大学 大模型 AI 代理的兴起和潜力:综述

  39. 经合组织 OECD2024 年气候行动监测报告

  40. Wevolver2024 年边缘人工智能现状报告 - 探索各行业边缘 AI 应用动态

  41. 2024 全球人形机器人产品数据库报告 - 人形机器人洞察研究 BTIResearch

  42. 《全球金融稳定报告》 把舵定航 不确定性、人工智能与金融稳定

  43. 瑞士洛桑联邦理工学院 《人工智能中的 - 创造力:进展与挑战》

  44. 《你所需要知道的理 - 论:人工智能、人类认知与决策》牛津大学最新 53 页报告

  45. 世界经济论坛 新兴技术时代的网络弹性导航:应对复杂挑战的协作解决方案 2024

  46. ADL 理特咨询 2024 汽车出行未来展望报告

  47. 2024 中国硬科技创新发展白皮书 - 开辟未来产业新赛道

  48. 科学时代的大语言模型中的人工智能

  49. Gartner2025 年重要战略技术趋势报告

  50. CBInsights2024 年第三季度全球人工智能投融资状况报告

  51. TrendHunter2025 年全球趋势报告 - 全行业顶级创新和变革趋势前瞻

  52. 天津大学 2024 大模型轻量化技术研究报告

  53. 欧洲海洋局 2024 导航未来报告将海洋置于更广泛的地球系统中第六版

  54. 美国安全与新兴技术中心 2024 AI 生成代码的网络安全风险研究报告

  55. 国际原子能机构 2024 年世界聚变展望报告

  56. 复旦大学 2024 大语言模型的能力边界与发展思考报告

  57. 安盛 AXA2024 年气候与生物多样性报告气候过渡计划路线图

  58. YouGov2024 美国公众对人工智能 AI 的态度调研报告

  59. 麦肯锡中国报告:《中国与世界》完整版

  60. 麦肯锡全球研究所 2024 下一代竞技场报告 - 重塑全球经济的 18 个新兴行业领域

  61. Project Sid,一个旨在模拟多智能体交互以研究 AI 文明的项目

  62. 德国研究与创新专家委员会 德国研究创新与科技成果报告







请到「今天看啥」查看全文