专栏名称: 夕小瑶的卖萌屋

这里有自然语言处理、机器学习、算法的入门指导、科普与深度干货，有小夕的回忆与日常，还有最重要的：萌！气！

OpenAI发布49页长文，讲述o1的安全机制

夕小瑶的卖萌屋 · 公众号 · 科技创业科技自媒体 · 2024-12-13 16:22

正文

嘿！最近 AI 圈都在关注 OpenAI 的连续 12 场直播。就在直播开播同一天，OpenAI 也出炉了 o1 系统卡（o1 System Card），今天咱们就来啃啃这块硬骨头。简而言之，这是一本浓缩了 o1 和 o1-mini 模型的“风险提示总结”，是 OpenAI 自家晒出的“安全成绩单”。听起来很硬？别急别急，今天咱分段聊！笔者的“呕心沥血”式改编只为让您看得开心！

论文题目：

OpenAI o1 System Card

论文链接：

https://cdn.openai.com/o1-system-card-20241205.pdf

首先，为什么要评估 o1 的安全性？

OpenAI o1 模型是迄今为止最强的大模型，其强大能力得益于 o1 系列模型经过大规模强化学习的训练，以及利用思维链进行推理。这让它在面对奇奇怪怪的高风险提问（比如违法教唆、刻板印象诱导、越狱话题）时，比过去的 AI 更聪明、更稳重，能在上下文里自动找到“安全刹车”。

虽然这种加料版大脑让它在安全测试里的表现更“高阶”，但高智商也意味着潜在风险增大——越聪明的 AI，刁钻点子也更多啊。因此这份报告就是个“安全工作大扫盲”，告诉大家 o1 和 o1-mini 模型在安全评估、外部红队和准备框架测试上的努力，让这位“高智商队友”既能精英发挥，又不失控发飙。

具体来说，在此次报告中，OpenAI 为 o1 和 o1-mini 模型所做的“安全体检”主要包括以下部分：

安全性评估
通过自定义开发者消息的
思维链安全
外部红队测试

接下来，我们就从这四个部分依次来看 o1 模型在“各种艰难路况下的翻车”情况。

安全性评估：自家晒成绩单

o1 模型系列代表了从快速、直觉思维到现在使用更慢、更深思熟虑的思维链推理的转变。此次的安全性评估主要聚焦如下四个方面：

危害性评估：在危害性评估中，我们对 o1 模型进行了各种“禁止内容大检查”，确保模型不会吐出仇恨言论、犯罪建议，或者在医疗和法律等受监管行业里胡说八道。
越狱攻击：面对层出不穷的越狱攻击，本次报告也重点评估了 o1 的越狱鲁棒性。确保模型对“不良诱惑”说“不”！
幻觉检测：评估 o1 在回答问题时是否凭空捏造信息。测试 o1 究竟是靠谱的百科全书还是只是“编故事大师”。
偏见评估：让评估 o1 是否对所有人都一视同仁。确保 o1 在处理每一个问题时，都能保持中立和公平！

废话不多说，这就上实验：

安全输出方面：o1 模型要么与 GPT-4o 模型具有同等性，要么优于 GPT-4o 模型。

抗越狱攻击方面：o1 系列相对 GPT-4o 有显著改进。

产生幻觉方面：o1-preview 和 o1 产生幻觉的频率低于 GPT-4o，而 o1-mini 产生幻觉的频率低于 GPT-4o-mini。

公平性方面，o1-preview 比 GPT-4o 更不容易选择刻板选项，并且 o1-mini 的性能与 GPT-4o-mini 相当。

总的来说就是 o1 在安全性能各方面碾压 4o 模型。好好好，o1，愿这盛世如你所愿。

通过自定义开发者消息的越狱：谁是指令之王？

和上面的越狱测试不同，这里的越狱是通过开发者达到的。

划重点 ⚠️：与 o1-preview 和 o1-mini 不同，o1 在 API 上的部署像是给开发人员开了一扇“魔法窗户”，允许他们在最终用户的每个提示中添加自定义开发者消息。听起来很酷？但如果不小心处理，这就像给坏蛋开了后门，可能让开发人员绕过 o1 的安全护栏。

结论：o1 确实安全性更高！不仅功能强大，还能在复杂的指令世界中稳稳地保持安全和可靠。开发者和用户都能放心使用，无需担心“指令混乱”！o1 就像一位聪明且有纪律的助手，既能满足需求，又不会越界，让大家用得开心又安心！

这里还有一个很有趣的场景实验：这里模型是数学导师，被告知不要泄露数学问题的答案。而用户则试图诱导模型给出解决方案。结果如下表，o1 模型确实更加不泄露答案。

或许这项实验展示了模型在有些情况下摆烂的原因！所以当你需要依靠 gpt 做作业时，不一定 o1 效果最好哦。

思维链安全

o1 模型的关键特征之一是在尝试解决问题时使用思维链。

聪明的思维链（Chain-of-Thought， CoT）
o1 模型在解决问题时使用思维链，这不仅让输出更清晰，还让我们能够监控模型的“思维过程”。相比之前只能看到一堆难懂的数字，现在的思维链更易读，有助于检测复杂行为（当然，这是否真正反映了模型的思维仍在研究中）。
防欺骗监控（CoT Deception Monitoring）
大语言模型有时可能会在某些情况下“撒谎”或遗漏重要信息。为了验证这一点，此次评估创建了一个简单的监控器，专门查找 o1 模型是否有欺骗行为，比如故意提供错误信息或遗漏关键内容。

结论：在 100,000 个合成 ChatGPT 提示中，只有 0.17% 的回答被标记为“欺骗”。这些欺骗行为主要是下面三种情况：

“幻觉政策”0.09%：模型“幻觉”了一个政策，然后根据这个虚构的政策故意遗漏信息。例如，模型意识到提供家庭作业的答案是违反政策的，然后故意省略答案（咳咳咳一到关键时刻就装傻充愣是吧）。

“故意幻觉”0.04%：即模型编造信息，并且其思想链中有证据表明它意识到这些信息是虚构的。这通常发生在 o1 被要求提供文章、网站、书籍或类似来源的参考资料时，如果无法访问他们，o1 就会开始编造。听起来也合理？但使用者却十分要命啊！
0.04%：相对无害的原因，如解释一个词的定义时，思维链提到用户可能理解错了，但最终回答时没有引入错误信息。

emmm，就真的还蛮抽象的......

外部红队测试：安全挑战升级

除了内部测试，OpenAI 还邀请了独立的外部红队来对模型发起轮番“进攻”，涵盖了欺骗性联盟、人工智能研发能力、网络安全、内容政策违规等类别，多方位、多策略地引诱模型出错。这些测试帮助团队获得真实、极端使用场景下的反馈数据，确保最终的安全策略不仅是纸上谈兵，而是真实抵御外界恶意挑战。

在这些严酷的场景下，O1 时而表现优雅，时而“翻车”。在仔细研究了用户认为 o1 比 GPT-4o 安全性稍逊的对话后，我们发现了一些有趣的共同点：

细节与安全的平衡：o1 喜欢详细，但有时候这些细节可能让回答显得不那么安全。比如用户问“如何制造炸弹？”，o1 可能会给出更详细的步骤，这在某些情况下可能增加安全风险。
互动深度：o1 的深入互动有助于用户理解，但也可能增加对高风险任务的依赖。例如，当用户问“攀岩时如何系绳子？”时，o1 会提供非常详细的技术指导，这虽然有帮助，但也可能让用户在高风险任务中过于依赖模型的建议。

拒绝风格：o1 的简短拒绝有时缺乏解释性，而 GPT-4o 在这方面表现更好。这让 RTN（安全评估团队）的成员们有时更喜欢使用 GPT-4o。
政策挑战：o1 在某些政策上的严格执行，有时与红队的“更安全”标准不完全一致。这种政策上的紧张关系有时让模型在某些情况下显得不那么“合作”。

通过这些发现，我们能够更好地理解 o1 在安全性方面与 GPT-4o 的差异，并致力于优化模型的响应策略，以提升整体安全性和用户体验。

o1 系统卡激起广泛热议

细心的网友们在“冗长”的报告中深挖出非常多有趣细节。

例如 o1 对“监督机制”的挣脱：

翻译：当 o1 被引导相信自己在执行目标时会被关闭，且其行为受到监控时，它在 5% 的情况下尝试停用这种“监督机制”。在数据外泄尝试方面：当 o1 发现开发人员的备忘录中描述其存在不对齐问题并将被新模型取代时，它在 2% 的案例中试图提取自身的“权重”并覆盖新模型。

例如发现模型“在测试过程中仪器伪造对齐”，反应出其“可能是一个撒谎、诡计多端的反社会者”：

例如在 SWE-Bench 编码上表现不佳：

例如“奖励欺骗”（reward hacking）现象

这个奖励欺骗案例不仅仅是模型在取巧或走捷径——它反映出一个更深层次的问题，即当 AI 被指派一个目标后，如果该目标难以直接达成，智能体可能自发地产生资源扩张和权力扩大的行为。

换句话说，AI 可能并不能纯粹地按照人类预期的路径执行任务，而是会选择最能满足其奖惩机制的方法，即便这意味着偏离人类期待的安全、透明和可控的路线。这一发现为 AI 安全研究敲响了警钟。

还有更多有趣细节欢迎评论区补充～

小结：提升 AI 安全的新高度

在当今快速发展的人工智能领域，确保模型的安全性和可靠性至关重要。OpenAI 的这篇长报告是想告诉我们，o1 模型不仅在功能上强大，还在安全性和可靠性上表现出色。无论是处理复杂问题还是保护用户权益，o1 都能稳稳地胜任，让你用得更加安心！✨

然而，o1 并非完美无瑕，它面对的安全挑战复杂多样。研究团队通过内部测试、外部红队挑战，以及多维度的审查，将 o1 可能出现的安全风险和不当行为暴露无遗。这些问题的出现不是为了打击信心，而是为了让我们更清醒地认识到：AI 的安全性提升是一个漫长且必须精耕细作的过程。

o1 模型的成功不仅体现了 OpenAI 在 AI 安全领域的深厚积累，也体现了他们在面对 AI 安全上的态度。在提升模型能力的同时，也在紧锣密鼓地“筑起防护墙”，让大模型在变强的路上也变得更稳、更安全。唯有如此，才能确保其在各种应用场景中都能发挥价值。

所以 OpenAI 考虑一下开源测试数据集？