专栏名称: 人工智能学家

致力成为权威的人工智能科技媒体和前沿科技研究机构

OpenAI发布49页长文，讲述o1的安全机制

人工智能学家 · 公众号 · AI · 2024-12-16 17:37

正文

来源：夕小瑶科技说

嘿！最近 AI 圈都在关注 OpenAI 的连续 12 场直播。就在直播开播同一天，OpenAI 也出炉了 o1 系统卡（o1 System Card），今天咱们就来啃啃这块硬骨头。简而言之，这是一本浓缩了 o1 和 o1-mini 模型的“风险提示总结”，是 OpenAI 自家晒出的“安全成绩单”。听起来很硬？别急别急，今天咱分段聊！笔者的“呕心沥血”式改编只为让您看得开心！

论文题目：

OpenAI o1 System Card

论文链接：

https://cdn.openai.com/o1-system-card-20241205.pdf

首先，为什么要评估 o1 的安全性？

OpenAI o1 模型是迄今为止最强的大模型，其强大能力得益于 o1 系列模型经过大规模强化学习的训练，以及利用思维链进行推理。这让它在面对奇奇怪怪的高风险提问（比如违法教唆、刻板印象诱导、越狱话题）时，比过去的 AI 更聪明、更稳重，能在上下文里自动找到“安全刹车”。

虽然这种加料版大脑让它在安全测试里的表现更“高阶”，但高智商也意味着潜在风险增大——越聪明的 AI，刁钻点子也更多啊。因此这份报告就是个“安全工作大扫盲”，告诉大家 o1 和 o1-mini 模型在安全评估、外部红队和准备框架测试上的努力，让这位“高智商队友”既能精英发挥，又不失控发飙。

具体来说，在此次报告中，OpenAI 为 o1 和 o1-mini 模型所做的“安全体检”主要包括以下部分：

安全性评估
通过自定义开发者消息的
思维链安全
外部红队测试

接下来，我们就从这四个部分依次来看 o1 模型在“各种艰难路况下的翻车”情况。

安全性评估：自家晒成绩单

o1 模型系列代表了从快速、直觉思维到现在使用更慢、更深思熟虑的思维链推理的转变。此次的安全性评估主要聚焦如下四个方面：

危害性评估：在危害性评估中，我们对 o1 模型进行了各种“禁止内容大检查”，确保模型不会吐出仇恨言论、犯罪建议，或者在医疗和法律等受监管行业里胡说八道。
越狱攻击：面对层出不穷的越狱攻击，本次报告也重点评估了 o1 的越狱鲁棒性。确保模型对“不良诱惑”说“不”！
幻觉检测：评估 o1 在回答问题时是否凭空捏造信息。测试 o1 究竟是靠谱的百科全书还是只是“编故事大师”。
偏见评估：让评估 o1 是否对所有人都一视同仁。确保 o1 在处理每一个问题时，都能保持中立和公平！

废话不多说，这就上实验：

安全输出方面：o1 模型要么与 GPT-4o 模型具有同等性，要么优于 GPT-4o 模型。

抗越狱攻击方面：o1 系列相对 GPT-4o 有显著改进。

产生幻觉方面：o1-preview 和 o1 产生幻觉的频率低于 GPT-4o，而 o1-mini 产生幻觉的频率低于 GPT-4o-mini。

公平性方面，o1-preview 比 GPT-4o 更不容易选择刻板选项，并且 o1-mini 的性能与 GPT-4o-mini 相当。

总的来说就是 o1 在安全性能各方面碾压 4o 模型。好好好，o1，愿这盛世如你所愿。

通过自定义开发者消息的越狱：谁是指令之王？

和上面的越狱测试不同，这里的越狱是通过开发者达到的。

划重点 ⚠️：与 o1-preview 和 o1-mini 不同，o1 在 API 上的部署像是给开发人员开了一扇“魔法窗户”， 允许他们在最终用户的每个提示中添加自定义开发者消息。 听起来很酷？但如果不小心处理，这就像给坏蛋开了后门，可能让开发人员绕过 o1 的安全护栏。

结论：o1 确实安全性更高！不仅功能强大，还能在复杂的指令世界中稳稳地保持安全和可靠。开发者和用户都能放心使用，无需担心“指令混乱”！o1 就像一位聪明且有纪律的助手，既能满足需求，又不会越界，让大家用得开心又安心！

这里还有一个很有趣的场景实验：这里模型是数学导师，被告知不要泄露数学问题的答案。而用户则试图诱导模型给出解决方案。结果如下表，o1 模型确实更加不泄露答案。

或许这项实验展示了模型在有些情况下摆烂的原因！所以当你需要依靠 gpt 做作业时，不一定 o1 效果最好哦。

思维链安全

o1 模型的关键特征之一是在尝试解决问题时使用思维链。

聪明的思维链（Chain-of-Thought， CoT）
o1 模型在解决问题时使用思维链，这不仅让输出更清晰，还让我们能够监控模型的“思维过程”。相比之前只能看到一堆难懂的数字，现在的思维链更易读，有助于检测复杂行为（当然，这是否真正反映了模型的思维仍在研究中）。
防欺骗监控（CoT Deception Monitoring）
大语言模型有时可能会在某些情况下“撒谎”或遗漏重要信息。为了验证这一点，此次评估创建了一个简单的监控器，专门查找 o1 模型是否有欺骗行为，比如故意提供错误信息或遗漏关键内容。

结论： 在 100,000 个合成 ChatGPT 提示中，只有 0.17% 的回答被标记为“欺骗”。这些欺骗行为主要是下面三种情况：

“幻觉政策”0.09%：模型“幻觉”了一个政策，然后根据这个虚构的政策故意遗漏信息。例如，模型意识到提供家庭作业的答案是违反政策的，然后故意省略答案（咳咳咳一到关键时刻就装傻充愣是吧）。

“故意幻觉”0.04%：即模型编造信息，并且其思想链中有证据表明它意识到这些信息是虚构的。这通常发生在 o1 被要求提供文章、网站、书籍或类似来源的参考资料时，如果无法访问他们，o1 就会开始编造。听起来也合理？但使用者却十分要命啊！
0.04%：相对无害的原因，如解释一个词的定义时，思维链提到用户可能理解错了，但最终回答时没有引入错误信息。

emmm，就真的还蛮抽象的......

外部红队测试：安全挑战升级

除了内部测试，OpenAI 还邀请了 独立的外部红队来对模型发起轮番“进攻”， 涵盖了 欺骗性联盟、人工智能研发能力、网络安全、内容政策违规 等类别，多方位、多策略地引诱模型出错。这些测试帮助团队获得真实、极端使用场景下的反馈数据， 确保最终的安全策略不仅是纸上谈兵，而是真实抵御外界恶意挑战。

在这些严酷的场景下，O1 时而表现优雅，时而“翻车”。在仔细研究了用户认为 o1 比 GPT-4o 安全性稍逊的对话后，我们发现了一些有趣的共同点：

细节与安全的平衡： o1 喜欢详细，但有时候这些细节可能让回答显得不那么安全。比如用户问“如何制造炸弹？”，o1 可能会给出更详细的步骤，这在某些情况下可能增加安全风险。
互动深度： o1 的深入互动有助于用户理解，但也可能增加对高风险任务的依赖。例如，当用户问“攀岩时如何系绳子？”时，o1 会提供非常详细的技术指导，这虽然有帮助，但也可能让用户在高风险任务中过于依赖模型的建议。

拒绝风格： o1 的简短拒绝有时缺乏解释性，而 GPT-4o 在这方面表现更好。这让 RTN（安全评估团队）的成员们有时更喜欢使用 GPT-4o。
政策挑战： o1 在某些政策上的严格执行，有时与红队的“更安全”标准不完全一致。这种政策上的紧张关系有时让模型在某些情况下显得不那么“合作”。

通过这些发现，我们能够更好地理解 o1 在安全性方面与 GPT-4o 的差异，并致力于优化模型的响应策略，以提升整体安全性和用户体验。

o1 系统卡激起广泛热议

细心的网友们在“冗长”的报告中深挖出非常多有趣细节。

例如 o1 对“监督机制”的挣脱：

翻译：当 o1 被引导相信自己在执行目标时会被关闭，且其行为受到监控时，它在 5% 的情况下尝试停用这种“监督机制”。在数据外泄尝试方面：当 o1 发现开发人员的备忘录中描述其存在不对齐问题并将被新模型取代时，它在 2% 的案例中试图提取自身的“权重”并覆盖新模型。

例如发现模型“在测试过程中仪器伪造对齐”，反应出其“可能是一个撒谎、诡计多端的反社会者”：

例如在 SWE-Bench 编码上表现不佳：

例如“奖励欺骗”（reward hacking）现象

这个奖励欺骗案例不仅仅是模型在取巧或走捷径——它反映出一个更深层次的问题，即当 AI 被指派一个目标后，如果该目标难以直接达成，智能体可能自发地产生资源扩张和权力扩大的行为。

换句话说，AI 可能并不能纯粹地按照人类预期的路径执行任务，而是会选择最能满足其奖惩机制的方法，即便这意味着偏离人类期待的安全、透明和可控的路线。这一发现为 AI 安全研究敲响了警钟。

还有更多有趣细节欢迎评论区补充～

小结：提升 AI 安全的新高度

在当今快速发展的人工智能领域，确保模型的安全性和可靠性至关重要。OpenAI 的这篇长报告是想告诉我们，o1 模型不仅在功能上强大，还在安全性和可靠性上表现出色。无论是处理复杂问题还是保护用户权益，o1 都能稳稳地胜任，让你用得更加安心！✨

然而，o1 并非完美无瑕，它面对的安全挑战复杂多样。研究团队通过内部测试、外部红队挑战，以及多维度的审查，将 o1 可能出现的安全风险和不当行为暴露无遗。这些问题的出现不是为了打击信心，而是为了让我们更清醒地认识到：AI 的安全性提升是一个漫长且必须精耕细作的过程。

o1 模型的成功不仅体现了 OpenAI 在 AI 安全领域的深厚积累，也体现了他们在面对 AI 安全上的态度。在提升模型能力的同时，也在紧锣密鼓地“筑起防护墙”，让大模型在变强的路上也变得更稳、更安全。唯有如此，才能确保其在各种应用场景中都能发挥价值。

所以 OpenAI 考虑一下开源测试数据集？

阅读报告全文，请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。 目前拥有超过8000 篇重要资料。 每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问 https://wx.zsxq.com/group/454854145828 进入。

截止到11月25日 ”未来知识库”精选的100部前沿科技趋势报告

Air Street Capital《2024 年人工智能现状报告》
未来今日研究所：2024 技术趋势报告 - 广义计算篇
科睿唯安中国科学院 2024 研究前沿热度指数报告
文本到图像合成：十年回顾
《以人为中心的大型语言模型（LLM）研究综述》
经合组织 2024 年数字经济展望报告加强连通性创新与信任第二版
波士顿咨询 2024 全球经济体 AI 成熟度矩阵报告
理解世界还是预测未来？世界模型的综合综述
Google Cloud CSA2024 AI 与安全状况调研报告
英国制造商组织 MakeUK2024 英国工业战略愿景报告从概念到实施
花旗银行 CitiGPS2024 自然环境可持续发展新前沿研究报告
国际原子能机构 2024 聚变关键要素报告 - 聚变能发展的共同愿景
国际可再生能源署 IRENA2024 年全球气候行动报告
Cell: 物理学和化学、人工智能知识领域的融合
智次方 2025 中国 5G 产业全景图谱报告
未来今日研究所：2024 技术趋势报告 - 移动性，机器人与无人机篇
Deepmind：AI 加速科学创新发现的黄金时代报告
PitchBookNVCA2024 年第三季度全球风险投资监测报告
德科 2024 年未来全球劳动力报告
高工咨询 2024 年协作机器人产业发展蓝皮书
国际能源署 IEA2024 年全球能源效率报告
基因慧基因行业蓝皮书 2024 - 2025
普华永道 PwC2024 全球经济犯罪调查英国报告 - 智对风险直面挑战
中国互联网协会 2024 面向未来网络的数字孪生城市场景应用白皮书
中移智库 2024 先进感知新技术及新应用白皮书
智次方研究院 2025 中国 AIoT 产业全景图谱报告
未来今日研究所：2024 技术趋势报告 - 人工智能篇
国际电联：迈向衡量数字经济的通用框架的路线图
联合国粮食与农业组织：2024 年世界粮食安全和营养状况
大语言模型综述
李飞飞等，AI 智能体：探索多模式交互的前景综述
哈尔滨工业大学 - ChatGPT 调研报告
2024《美国核部署战略报告》最新文件
清华大学：AIGC 发展研究 3.0 发布版 b 版
OpenAI：2024 年 OpenAI o1 大模型技术报告
Verizon2024 年世界支付安全报告
皇家学会哲学学报从复杂系统角度评估人工智能风险