专栏名称: 歸藏的AI工具箱
互联网科技博主 产品设计师、模型设计师、 不会代码的独立开发者。 关注人工智能、LLM 、 Stable Diffusion 和设计。
目录
相关文章推荐
浙江大学  ·  下一站,“浙大码头”到了! ·  昨天  
兰州大学萃英在线  ·  月台 | 吾心若安 何日非“年”? ·  2 天前  
长江日报  ·  武汉一部属高校,党委书记调整 ·  3 天前  
长江日报  ·  武汉一部属高校,党委书记调整 ·  3 天前  
51好读  ›  专栏  ›  歸藏的AI工具箱

Anthropic 研发了一个新的防越狱系统宪章分类器#AI创造-20250204100134

歸藏的AI工具箱  · 微博  ·  · 2025-02-04 10:01

正文

2025-02-04 10:01

Anthropic 研发了一个新的防越狱系统宪章分类器 #AI创造营# #ai#

训练合成数据来识别和阻止大部分越狱行为,同时保持较低的过度拒绝率和计算成本。

他们还开放了一个系统鼓励用户尝试对模型进行越狱,检测鲁棒性。

搞笑的是这个系统有 bug,几关之后一直重复一个问题,有个老哥一直点检查按钮就通关了,哈哈哈哈

详细介绍:anthropic.com/research/constitutional-classifiers






请到「今天看啥」查看全文