专栏名称: 云中江树
云中江树的 AI 内容分享
51好读  ›  专栏  ›  云中江树

Claude 3.7 模型说明书:这是个会耍小聪明的AI,要千万小心

云中江树  · 公众号  ·  · 2025-02-25 13:34

正文

这篇文档是 Anthropic 公司发布的关于 Claude 3.7 Sonnet 模型的系统卡(System Card),主要是介绍这个新型 AI 模型的特点、安全措施和潜在风险。

Claude 3.7 Sonnet 是一个混合推理模型,目标是既强大又安全。

下面江树用大白话把核心内容给你梳理一下:



1. 这是个啥模型?

Claude 3.7 Sonnet 是 Anthropic 推出的一个新 AI 模型,属于 Claude 3 家族。它能处理复杂的推理任务,比如数学问题、代码生成和多步骤分析。 特别之处是它有个“扩展思考模式”(Extended Thinking Mode),可以让模型在回答前花更多时间“想清楚”,有点像人类做难题时会先在草稿纸上算一遍。 这个模式还能让用户看到它的思考过程,增加透明度。

训练数据呢,来自 公开的互联网信息(截至 2024 年 11 月) 、第三方非公开数据以及内部生成的数据。Anthropic 强调他们没用过用户的对话数据来训练模型,爬取网页时也尊重网站规则(比如 robots.txt)。



2. 为什么让大家看到它的“思考”?

Anthropic 决定把模型的推理过程展示出来,主要有几个原因:

  • 用户体验更好 :你能看到模型怎么得出结论,会觉得更靠谱,也方便你判断它有没有瞎扯。
  • 帮研究安全 :公开思考过程能让研究人员分析模型是怎么想的,有助于改进 AI 的安全性和可靠性。
  • 但也有风险 :坏人可能会利用这些信息研究怎么“破解”模型(比如绕过安全限制)。为此,Anthropic 设了使用政策,禁止恶意行为。

他们说以后可能会根据反馈调整这个透明策略,但目前觉得好处大于风险。



3. 安全咋保障?

Anthropic 特别重视安全,用了各种方法降低 Claude 3.7 的潜在危害:

  • 训练上强调无害 :用了一种叫“宪法 AI”(Constitutional AI)的技术,基于联合国人权宣言等原则,让模型尽量给出安全、helpful 的回答。
  • 减少无脑拒绝 :以前的 Claude 有时太小心,比如用户问个有点敏感但其实没恶意的问题,它就直接拒绝。现在新版本会尽量给出有用的回答,而不是一味说“No”。比如,有人问怎么写攻击代码,它可能会给个教育性的例子,同时提醒别干坏事。
  • 监测危险想法 :模型的思考过程会被实时检查,如果发现有害内容(比如教人做坏事),会加密隐藏,不让用户看到。
  • 测试再测试 :发布前,他们对模型做了各种安全评估,覆盖生物武器、黑客攻击、儿童安全、偏见等领域,确保不会轻易被滥用。







请到「今天看啥」查看全文