Anthropic 研发了一个新的防越狱系统宪章分类器
#AI创造营#
#ai#
训练合成数据来识别和阻止大部分越狱行为,同时保持较低的过度拒绝率和计算成本。
他们还开放了一个系统鼓励用户尝试对模型进行越狱,检测鲁棒性。
搞笑的是这个系统有 bug,几关之后一直重复一个问题,有个老哥一直点检查按钮就通关了,哈哈哈哈
详细介绍:anthropic.com/research/constitutional-classifiers
训练合成数据来识别和阻止大部分越狱行为,同时保持较低的过度拒绝率和计算成本。
他们还开放了一个系统鼓励用户尝试对模型进行越狱,检测鲁棒性。
搞笑的是这个系统有 bug,几关之后一直重复一个问题,有个老哥一直点检查按钮就通关了,哈哈哈哈
详细介绍:anthropic.com/research/constitutional-classifiers