来源:AI寒武纪
Epoch Al 就与 OpenAI 合作的透明度问题致歉
刚刚来自 Epoch Al 的 Tamay 就其与 OpenAI 合作的 FrontierMath 项目透明度问题发表声明,承认在与 OpenAI 的合作中存在沟通和透明度方面的失误,并承诺未来将改进
FrontierMath (目前最难的数学测试,陶哲轩是其委员会委员)是一个旨在评估前沿数学模型能力的基准测试项目。Tamay 在声明中表示,Epoch Al 在与 OpenAI 的合作过程中,未能就 OpenAI 的参与程度向基准测试的贡献者,尤其是数学家们,进行充分的透明沟通
具体来说,Tamay 指出以下几个错误:
-
披露时间过晚:
由于合同限制,Epoch Al 直到 FrontierMath 的第三次迭代(o3)发布前后才被允许披露与 OpenAI 的合作关系。Tamay 承认,他们应该在与 OpenAI 的谈判中更强硬地争取尽早向贡献者披露合作信息的权利
-
2沟通不一致:
虽然 Epoch Al 向部分数学家透露了他们获得了实验室的资助,但并未系统地向所有参与者说明这一情况,也没有明确指出合作的实验室是 OpenAI。这种不一致的沟通是一个错误
-
未将透明度作为合作的前提:
Tamay 表示,即使受到合同限制,他们也应该将与贡献者的透明度作为与 OpenAI 达成协议的不可协商的一部分。数学家们理应知道谁可能会访问他们的工作成果
针对数据使用问题,Tamay 承认 OpenAI 确实可以访问 FrontierMath 的大部分问题和解决方案,但有一个未被 OpenAI 看到的保留集,用于独立验证模型能力。他同时强调,双方有
口头协议
,这些材料不会被用于模型训练
Tamay 指出,OpenAI 的相关员工在公开场合将 FrontierMath 描述为“强保留”的评估集,这与他们的理解一致。他进一步强调,保持真正未受污染的测试集对实验室大有裨益
此外,Tamay 还提到,OpenAI 完全支持 Epoch Al 维护一个单独的、未被看到的保留集,作为防止过拟合和确保准确衡量模型进步的额外保障。FrontierMath 从一开始就被设计并呈现为一个评估工具,这些安排也体现了这一目的
英文全文:
Tamay from Epoch Al here.
We made a mistake in not being more transparent about OpenAl's involvement. We were restricted from disclosing the partnership until around the time o3 launched, and in hindsight we should have negotiated harder for the ability to be transparent to the benchmark contributors as soon as possible. Our contract specifically prevented us from disclosing info
rmation about the funding source and the fact that OpenAl has data access. We own this error and are committed to doing better in the future.
For future collaborations, we will strive to improve transparency wherever possible, ensuring contributors have clearer information about funding sources, data access, and usage purposes at the outset. While we did communicate that we received lab funding to some mathematicians, we didn't do this systematically and did not name the lab we worked with. This inconsistent communication was a mistake. We should have pushed harder for the ability to be transparent about this partnership from the start, particularly with the mathematicians creating the problems.
Getting permission to disclose OpenAl's involvement only around the o3 launch wasn't good enough. Our mathematicians deserved to know who might have access to their work. Even though we were contractually limited in what we could say, we should have made transparency with our contributors a nonnegotiable part of our agreement with OpenAl.
Regarding training usage: We acknowledge that OpenAl does have access to a large fraction of FrontierMath problems and solutions, with the exception of a unseen-by-OpenAl hold-out set that enables us to independently verify model capabilities. However, we have a verbal agreement that these materials will not be used in model training.
Relevant OpenAl employees' public communications have described FrontierMath as a 'strongly held out' evaluation set. While this public positioning aligns with our understanding, I would also emphasize more broadly that labs benefit greatly from having truly uncontaminated test sets.
OpenAl has also been fully supportive of our decision to maintain a separate, unseen holdout set—an extra safeguard to prevent overfitting and ensure accurate progress measurement. From day one, FrontierMath was conceived and presented as an evaluation tool, and we believe these arrangements reflect that purpose.
[Edit: Clarified OpenAl's data access - they do not have access to a separate holdout set that serves as an additional safeguard for independent verification.]
阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”
https://wx.zsxq.com/group/454854145828
未来知识库
是“
欧米伽
未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。
目前拥有超过8000
篇重要资料。
每周更新不少于100篇世界范围最新研究
资料
。
欢迎扫描二维码或访问
https://wx.zsxq.com/group/454854145828
进入。
截止到12月25日 ”未来知识库”精选的100部前沿科技趋势报告
-
2024 美国众议院人工智能报告:指导原则、前瞻性建议和政策提案
-
未来今日研究所:2024 技术趋势报告 - 移动性,机器人与无人机篇
-
Deepmind:AI 加速科学创新发现的黄金时代报告
-
Continental 大陆集团:2024 未来出行趋势调研报告
-
埃森哲:未来生活趋势 2025
-
国际原子能机构 2024 聚变关键要素报告 - 聚变能发展的共同愿景
-
哈尔滨工业大学:2024 具身大模型关键技术与应用报告
-
爱思唯尔(Elsevier):洞察 2024:科研人员对人工智能的态度报告
-
李飞飞、谢赛宁新作「空间智能」 等探索多模态大模型性能
-
欧洲议会:2024 欧盟人工智能伦理指南:背景和实施
-
通往人工超智能的道路:超级对齐的全面综述
-
清华大学:理解世界还是预测未来?世界模型综合综述
-
Transformer 发明人最新论文:利用基础模型自动搜索人工生命
-
兰德公司:新兴技术监督框架发展的现状和未来趋势的技术监督报告
-
麦肯锡全球研究院:2024 年全球前沿动态(数据)图表呈现
-
兰德公司:新兴技术领域的全球态势综述
-
前瞻:2025 年人形机器人产业发展蓝皮书 - 人形机器人量产及商业化关键挑战
-
美国国家标准技术研究院(NIST):2024 年度美国制造业统计数据报告(英文版)
-
罗戈研究:2024 决策智能:值得关注的决策革命研究报告
-
美国航空航天专家委员会:2024 十字路口的 NASA 研究报告
-
中国电子技术标准化研究院 2024 扩展现实 XR 产业和标准化研究报告
-
GenAI 引领全球科技变革关注 AI 应用的持续探索
-
国家低空经济融创中心中国上市及新三板挂牌公司低空经济发展报告
-
2025 年计算机行业年度策略从 Infra 到 AgentAI 创新的无尽前沿
-
多模态可解释人工智能综述:过去、现在与未来
-
【斯坦福博士论文】探索自监督学习中对比学习的理论基础
-
《机器智能体的混合认知模型》最新 128 页
-
Open AI 管理 AI 智能体的实践
-
未来生命研究院 FLI2024 年 AI 安全指数报告 英文版
-
兰德公司 2024 人工智能项目失败的五大根本原因及其成功之道 - 避免 AI 的反模式 英文版
-
Linux 基金会 2024 去中心化与人工智能报告 英文版
-
脑机接口报告脑机接口机器人中的人机交换