近年来,以ChatGPT、Sora等为代表的生成式人工智能快速发展,对经济社会发展和人类文明进步产生深远影响。与此同时,生成式人工智能技术也带来了难以预知的风险和挑战,主要体现在三个方面:(1)缺陷风险,数据驱动、模型高度复杂、不确定性强等特性使大模型自身在技术上存在内生缺陷,例如模型幻觉问题;(2)滥用风险,训练数据、模型设计等蕴含的固有偏见和设计者意图导致大模型在应用时面临伦理和合规问题,例如歧视或价值观问题;(3)对抗风险,大模型在开放环境下应用时面临恶意对抗攻击导致的安全风险,例如模型窃取攻击、后门攻击、对抗样本攻击等。
目前,全球正在加快推进人工智能安全治理,初步形成政府、国际组织、科技企业等多方参与的协同治理格局。2020年,美国联邦政府发布了《人工智能应用的监管指南》,强调政府和企业协同加强人工智能治理。2021年,欧盟发布了《人工智能法案》,作为全球首部综合性人工智能治理立法,对人工智能系统进行了分类,并根据风险等级制定了相应的监管要求。近几年,我国陆续出台《互联网信息服务算法推荐管理规定》《互联网信息服务深度合成管理规定》等法规,开展算法备案、安全评估、风险监测等,并围绕算法综合治理开展了“清朗”系列专项行动。2023年,国家网信办等七部委出台《生成式人工智能服务管理暂行办法》,我国成为世界上首个为大模型立法的国家。
我国在人工智能治理技术攻关和能力建设方面也加大了投入。2022年,国家重点研发计划“网络空间安全治理”专项中设立了“智能算法模型安全评估与风险监测技术”“互联网信息推荐算法安全评估理论与方法”两个项目。2023年,中国科学院启动筹建智能算法安全重点实验室,并设立了“智能算法安全基础理论与关键技术”战略性先导科技B类专项。《中国科学院院刊》2024年第11期刊登了《智能算法安全:内涵、科学问题与展望》一文,探讨了算法自身的一元内生性安全、人机二元应用性安全、人机共生的多元系统性安全。
人工智能的核心是大模型,本期专题以“大模型安全”为主题,涵盖了大模型安全问题、生成式大模型幻觉内容检测、大模型事实性增强、视觉生成模型安全对齐以及面向推荐系统的算法审计等方面,以期促进研究同行对大模型安全以及更广泛的人工智能安全进行探讨与研究,同时进一步推动大模型行业应用和人工智能治理水平。
大模型安全问题涉及技术发展和技术运用等多个层面,并随着技术发展和应用的深入而衍生新的安全问题。因此,对大模型安全问题进行归纳总结具有重要价值。中国移动通信研究院龙翀博士和清华大学教授黄民烈团队在文章《大模型安全问题概述》中从训练方和使用方两个角度考虑主观动机,将大模型安全问题分为四类,涵盖大模型幻觉、指令攻击等,并对相关安全场景进行了梳理。
幻觉问题是生成式大模型的一个顽疾,也是制约生成式人工智能应用的主要技术障碍之一。哈尔滨工业大学赵磊磊博士和兰州大学研究员郑炜豪团队撰写了文章《生成式大模型幻觉内容检测的挑战及可行技术路径》,围绕生成式大模型幻觉内容检测面临的技术挑战,重点分析了大模型幻觉产生的原因以及幻觉内容检测的可行技术路径。该文吸纳了CCF YOCSEF兰州分论坛“生成式大模型‘幻觉’检测技术的实现路径与挑战”技术论坛的部分观点。
如何保证生成内容的事实一致性是生成式大模型面临的重要挑战。哈尔滨工业大学教授冯骁骋团队在文章《知识边界视角下的大模型事实性增强》中,聚焦知识边界视角下的大模型事实性增强,从知识边界的视角出发探讨了大语言模型事实性增强的方法,系统梳理了事实性感知、对齐和拓展的技术,并分析了现有策略的局限性,致力于推动构建更可靠的大模型,提高其在复杂应用场景中的事实性。
文生图和文生视频等视觉生成模型技术发展迅猛,在创意设计、娱乐传媒等领域得到广泛应用,但随之而来的安全性问题也日益凸显。清华大学副教授东昱晓团队着眼于视觉生成大模型的安全对齐问题,在《视觉生成模型安全对齐》文章中分析讨论了视觉生成尤其是基于扩散模型的技术安全问题及相应的解决方法,为视觉生成模型的发展和治理提供了可借鉴的思考。
推荐系统是大模型的重要应用场景之一,也面临诸多安全风险。中国科学院计算技术研究所副研究员曹婍等人近年来聚焦智能算法安全基础理论和关键技术,在大模型因果机制嵌入、模型编辑、模型鲁棒性与公平性评测等方面形成创新成果,其在文章《面向推荐系统的算法审计技术及展望》中回顾了推荐系统的发展趋势,对推荐系统的安全风险以及现有算法审计技术进行了系统性梳理。
大模型安全是人工智能安全的一个缩影。随着人类社会加速从信息化阶段走向智能化阶段,人工智能技术的日益广泛应用必将带来更多的安全问题。我们须认清智能和安全是一体两面,并持续致力于积极发展用于人工智能治理的相关技术开发与应用,支持以人工智能技术防范人工智能风险,提高人工智能治理的技术能力。
CCF高级会员、CCF YOCSEF(2024—2025)学术委员会主席。中国科学院计算技术研究所研究员,智能算法安全重点实验室常务副主任。主要研究方向为社会认知计算、人工智能安全。
[email protected]
CCF会士、理事、大数据专家委员会主任。中国科学院计算技术研究所副所长、研究员,智能算法安全重点实验室主任。主要研究方向为大数据分析、智能算法安全。
[email protected]