专栏名称: 歸藏的AI工具箱

互联网科技博主产品设计师、模型设计师、不会代码的独立开发者。关注人工智能、LLM 、 Stable Diffusion 和设计。

目录

相关文章推荐

浙江大学 · 下一站，“浙大码头”到了！ · 昨天

兰州大学萃英在线 · 月台 | 吾心若安何日非“年”？ · 2 天前

AHTV第一时间 · 9集出现6次，网友呼吁下架！剧方火速删除.. ... · 昨天

AHTV第一时间 · 9集出现6次，网友呼吁下架！剧方火速删除.. ... · 昨天

看电视 · 开年第一会，侯鸿亮、龚宇、孙忠怀、郑晓龙、乐 ... · 3 天前

长江日报 · 武汉一部属高校，党委书记调整 · 3 天前

长江日报 · 武汉一部属高校，党委书记调整 · 3 天前

51好读 › 专栏 › 歸藏的AI工具箱

Anthropic 研发了一个新的防越狱系统宪章分类器#AI创造-20250204100134

歸藏的AI工具箱 · 微博 · · 2025-02-04 10:01

正文

2025-02-04 10:01
本条微博链接

Anthropic 研发了一个新的防越狱系统宪章分类器 #AI创造营# #ai#

训练合成数据来识别和阻止大部分越狱行为，同时保持较低的过度拒绝率和计算成本。

他们还开放了一个系统鼓励用户尝试对模型进行越狱，检测鲁棒性。

搞笑的是这个系统有 bug，几关之后一直重复一个问题，有个老哥一直点检查按钮就通关了，哈哈哈哈

详细介绍：anthropic.com/research/constitutional-classifiers

请到「今天看啥」查看全文

推荐文章

浙江大学 · 下一站，“浙大码头”到了！

昨天

兰州大学萃英在线 · 月台 | 吾心若安何日非“年”？

2 天前

AHTV第一时间 · 9集出现6次，网友呼吁下架！剧方火速删除......

昨天

AHTV第一时间 · 9集出现6次，网友呼吁下架！剧方火速删除......

昨天

看电视 · 开年第一会，侯鸿亮、龚宇、孙忠怀、郑晓龙、乐力等透视长短“剧变”

3 天前

长江日报 · 武汉一部属高校，党委书记调整

3 天前

长江日报 · 武汉一部属高校，党委书记调整

3 天前

叶子猪游戏网 · 这还是暴雪吗？你觉得守望先锋这新英雄造型能给几分？

7 年前

来自星星 · 千万别信这些星男说"你很特别"之类的屁话！

7 年前

玩物志 · 父亲节完全送礼清单

7 年前

工程客 · 这个厉害了！谷歌将释放2000万只致不孕不育的蚊子，用交配让蚊子断子绝孙！

7 年前

情圣大卫 · 情圣大卫：这样去爱一个女人，只会把她越推越远

7 年前

Sov5搜索 · 小百科 · 今天看啥 · 移动版

51好读 - 好文章就要读起来!