报告介绍
近年来,人工智能算法模型取得了迅猛发展,并广泛应用于多个领域。然而,基于大数据训练的智能模型面临内生安全威胁,如对抗样本和后门注入,其生成内容也可能引发一系列衍生的社会安全问题。因此,构建人工智能安全评测体系,对智能模型进行安全测试、分析和加固,已成为当前重要的研究课题。
本次 talk 将围绕智能算法模型的内生和衍生安全风险,介绍北京航空航天大学智能安全团队在安全评测体系方面的系列研究工作。研究内容包括针对内生安全的对抗攻击、后门投毒,揭示模型认知表示层次中的固有缺陷;以及针对衍生安全的越狱攻击、公平性测试、偏见调控等,揭露模型在实际行为中可能与人类价值需求偏离的潜在危害。
通过建立多维安全测试、漏洞定位解释、模型加固修复的可信评测体系,可以保障算法模型的安全可信,助力人工智能在关键领域的安全有序应用。
嘉宾介绍 肖宜松,北京航空航天大学计算机学院在读博士生,师从刘祥龙教授。他的研究领域涵盖人工智能安全与软件测试,重点关注人工智能算法模型的鲁棒性、公平性等可信性属性。相关研究成果已在 ISSTA、ICSE 等国际顶级学术会议上发表。目前,他的研究兴趣集中在大模型的公平性与偏见问题,致力于检测并缓解大模型中存在的偏见和歧视行为,以推动大模型的更加公平应用。
一键预约直播
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧