专栏名称: PaperWeekly

PaperWeekly是一个分享知识和交流学问的学术组织，关注的领域是自然语言处理的各个方向。我们热爱知识，分享知识，希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。

直播预告 | 北京航空航天大学智能安全团队：大模型内生安全评测体系

PaperWeekly · 公众号 · 科研 · 2024-11-08 13:06

正文

AI安全说第8期

嘉宾在线解读✔️

在线实时Q&A✔️

直播主题

大模型内生安全评测体系

直播嘉宾

肖宜松

北京航空航天大学博士生

直播时间

2024年11月9日（周六）

19:30-20:0

观看方式

PaperWeekly视频号

PaperWeekly B站直播间

一键预约直播

▼

报告介绍

大模型内生安全评测体系

近年来，人工智能算法模型取得了迅猛发展，并广泛应用于多个领域。然而，基于大数据训练的智能模型面临内生安全威胁，如对抗样本和后门注入，其生成内容也可能引发一系列衍生的社会安全问题。因此，构建人工智能安全评测体系，对智能模型进行安全测试、分析和加固，已成为当前重要的研究课题。

本次 talk 将围绕智能算法模型的内生和衍生安全风险，介绍北京航空航天大学智能安全团队在安全评测体系方面的系列研究工作。研究内容包括针对内生安全的对抗攻击、后门投毒，揭示模型认知表示层次中的固有缺陷；以及针对衍生安全的越狱攻击、公平性测试、偏见调控等，揭露模型在实际行为中可能与人类价值需求偏离的潜在危害。

通过建立多维安全测试、漏洞定位解释、模型加固修复的可信评测体系，可以保障算法模型的安全可信，助力人工智能在关键领域的安全有序应用。

嘉宾介绍

肖宜松

北京航空航天大学博士生

肖宜松，北京航空航天大学计算机学院在读博士生，师从刘祥龙教授。他的研究领域涵盖人工智能安全与软件测试，重点关注人工智能算法模型的鲁棒性、公平性等可信性属性。相关研究成果已在 ISSTA、ICSE 等国际顶级学术会议上发表。目前，他的研究兴趣集中在大模型的公平性与偏见问题，致力于检测并缓解大模型中存在的偏见和歧视行为，以推动大模型的更加公平应用。