人工智能安全

计算机与网络安全 · 公众号 · 互联网安全 · 2024-10-12 07:57

正文

进网络安全行业群

公众号回复 行业群

近年来AI日益在医疗、自动驾驶等关键领域的普及应用。随着以生成式人工智能为根基的大语言模型（Large Language Model）表现出强大的对话、理解、推理、多任务能力，越来越多的厂商正致力于在不同的场景、行业、领域中基于LLM构建更为强大的AI 应用。AI作为数字化变革的核心驱动力，AI正在成为各行各业重塑经济社会发展形态的智能化关键基础设施，同时AI 也面临日趋严峻的安全挑战：

1）AI 模型和训练数据是AI应用厂商的核心资产，如果保护不善可能被窃取或恶意逆向恢复。

2）AI模型本身存在脆弱性，导致针对AI模型的对抗样本和药饵后门等攻击越来越多，在关键领域中使用的AI模型被攻击导致误判将带来严重后果。

3）随着AI越来越强大，人类对AI 顾虑也日益增长，AI监管合规与治理成为AI生态中各参与方的必选项，需要创新的技术手段支持AI 治理、安全对齐、对多参与方的责任追溯。

Al模型与训练数据静态保护：Al模型与训练数据需要通过加密、强制访问控制、安全隔离等手段保证Al模型与训练数据在收集、训练及使用阶段的全生命周期安全。核心挑战在于如何对NPU芯片的高带宽的内存数据进行实时的密态处理，并确保性能无损。未来需要突破高性能、低时延的内存加密算法，以及突破NPU片上的内存硬件加密引擎的架构设计，提供全生命周期的保护能力。

AI模型与隐私动态保护：在模型的微调、推理阶段，通过新型模型/数据混淆算法、AI机密计算保证AI模型以及用户隐私数据在微调、推理阶段的安全。其核心挑战在于1)AI机密计算应构建覆盖模型/数据处理全链路的“可用不可见”方案，构建用户对机密计算环境的信任;2)新型模型/数据混淆算法应超越原有混淆算法强度低、易被逆向的局限性，基于硬件TEE 为模型/数据提供更高安全强度的防护。

针对AI 模型的新型攻击的检测与防护，1）在机器视觉场景下，通过增加外部对抗样本检测模型实现对对抗样本（闪避）等AI攻击的识别，阻断攻击路径，防止AI 模型受到攻击后产生误判。主要挑战在于持续的进行对抗训练以适应新的攻击类型，未来会出现针对AI攻击的独立安全产品与服务。2）在大语言模型场景下，通过增加专门的攻击检测模型实现对新型提示注入攻击的检测与防护，保护大模型驱动的AI应用免收代码注入攻击的影响。主要挑战同样在于需要对攻击检测模型进行持续训练与升级。

除上述针对已知攻击手段所做的防御之外，也应增强Al模型本身的安全性，避免未知攻击造成的危害。包括增强模型鲁棒性、模型可验证性以及模型可解释性，以及大模型的安全对齐，确保人工智能系统的行为和决策与人类的价值观、意图和利益保持一致。

通过对抗训练，提高抗攻击能力是Al模型安全能力提升的主要技术路径；对抗样本的泛化能力，模型正则化将是需要突破的关键技术；未来对抗鲁棒性有望从当前较低的水平提升到80%。

未来针对小模型存在有效的形式化验证方法，可证明模型的安全性;面对大模型的形式化验证还面临巨大的挑战。

为了防止Al带来业务法律风险或者逻辑风险，需要了解Al模型做出判断的依据。未来通过建模前的“数据可解释”，可以构建事前“可解释模型”。目前线性模型基本都具备可解释性。针对非线性模型，还将面临巨大的挑战，目前还无法做到Al模型的全局可解释，但是，对网络模型的分层可视化和局部可解释，将会是未来很长一段时间的辅助技术路径。而对于更加复杂的大模型，模型的可解释性变得更加困难，已经有研究者提出“人脑也不可解释”，提示应当更多地关注大模型的可靠性以及实现大模型与人类价值观的对齐（避免危害）。构建与人类价值观一致的安全模型，实现大模型的“超级对齐”，是一条可能的技术路径。

当前AI产业已经演化出了复杂的生态，导致AI 模型在其生命周期中涉及到不同利益相关方间数据、模型与利益的交换，形成了复杂的关系与责任。AI模型的“黑盒”更进一步导致其透明性的缺失与溯源追责的困难。需要考虑借助现有的安全基础设施，引入可信的AIBoM（Bill of Material）的概念，支持模型的透明可追溯性。同时，为了满足AI监管要求，未来在AI模型运行过程中必须持续监控与审计，并通过区块链等技术保证审计结果可信，实现AI 问题实时可追溯。

人工智能安全

正文

请到「今天看啥」查看全文