Claude 3.7 模型说明书：这是个会耍小聪明的AI，要千万小心

云中江树 · 公众号 · · 2025-02-25 13:34

正文

这篇文档是 Anthropic 公司发布的关于 Claude 3.7 Sonnet 模型的系统卡（System Card），主要是介绍这个新型 AI 模型的特点、安全措施和潜在风险。

Claude 3.7 Sonnet 是一个混合推理模型，目标是既强大又安全。

下面江树用大白话把核心内容给你梳理一下：

1. 这是个啥模型？

Claude 3.7 Sonnet 是 Anthropic 推出的一个新 AI 模型，属于 Claude 3 家族。它能处理复杂的推理任务，比如数学问题、代码生成和多步骤分析。 特别之处是它有个“扩展思考模式”（Extended Thinking Mode），可以让模型在回答前花更多时间“想清楚”，有点像人类做难题时会先在草稿纸上算一遍。 这个模式还能让用户看到它的思考过程，增加透明度。

训练数据呢，来自 公开的互联网信息（截至 2024 年 11 月） 、第三方非公开数据以及内部生成的数据。Anthropic 强调他们没用过用户的对话数据来训练模型，爬取网页时也尊重网站规则（比如 robots.txt）。

2. 为什么让大家看到它的“思考”？

Anthropic 决定把模型的推理过程展示出来，主要有几个原因：

用户体验更好 ：你能看到模型怎么得出结论，会觉得更靠谱，也方便你判断它有没有瞎扯。
帮研究安全 ：公开思考过程能让研究人员分析模型是怎么想的，有助于改进 AI 的安全性和可靠性。
但也有风险 ：坏人可能会利用这些信息研究怎么“破解”模型（比如绕过安全限制）。为此，Anthropic 设了使用政策，禁止恶意行为。

他们说以后可能会根据反馈调整这个透明策略，但目前觉得好处大于风险。

3. 安全咋保障？

Anthropic 特别重视安全，用了各种方法降低 Claude 3.7 的潜在危害：

训练上强调无害 ：用了一种叫“宪法 AI”（Constitutional AI）的技术，基于联合国人权宣言等原则，让模型尽量给出安全、helpful 的回答。
减少无脑拒绝 ：以前的 Claude 有时太小心，比如用户问个有点敏感但其实没恶意的问题，它就直接拒绝。现在新版本会尽量给出有用的回答，而不是一味说“No”。比如，有人问怎么写攻击代码，它可能会给个教育性的例子，同时提醒别干坏事。
监测危险想法 ：模型的思考过程会被实时检查，如果发现有害内容（比如教人做坏事），会加密隐藏，不让用户看到。
测试再测试 ：发布前，他们对模型做了各种安全评估，覆盖生物武器、黑客攻击、儿童安全、偏见等领域，确保不会轻易被滥用。