1. 引言
1.1 模型窃取攻击简介
随着深度学习在计算机视觉、自然语言处理、语音识别等领域的广泛应用,越来越多的高价值模型通过云端 API 或边缘设备对外提供服务。这类模型往往经过大规模数据训练,具有极高的商业与技术价值。然而,近年来的研究表明,攻击者无需直接访问模型的内部结构和权重参数,仅通过与模型进行交互(如发送输入查询并收集输出结果),即可利用**模型窃取攻击(Model Extraction Attack)**重构出性能相近的替代模型。
典型的模型窃取攻击包括:
黑盒查询攻击(Black-box Query Attack):攻击者向目标模型发送大量精心设计的输入,收集对应输出,用作训练集训练替代模型。
模型蒸馏窃取(Model Distillation Theft):攻击者模仿知识蒸馏的流程,将目标模型的输出(软标签)作为“教师”信号,训练一个“学生”模型,达到复刻性能的目的。
混合型攻击(Hybrid Attack):结合少量内部信息(如模型架构或部分权重)与外部查询结果,以降低重构成本。
这些攻击不仅可能侵犯知识产权,还可能被用于绕过安全限制,例如利用窃取的自动驾驶模型规避障碍物识别限制,或利用窃取的医疗诊断模型进行虚假诊断生成。
1.2 深度学习模型保护现状与不足
为应对模型窃取威胁,研究者和企业提出了多种防御策略,包括:
模型水印与指纹(Model Watermarking & Fingerprinting):在模型参数中嵌入隐性特征,用于溯源与版权验证。
参数混淆与加密(Parameter Obfuscation/Encryption):通过权重混淆、同态加密等方式保护模型结构与参数。
API 调用限制(Rate Limiting):限制单个用户的调用频率,以增加窃取成本。
输出扰动(Output Perturbation):在模型输出中注入微扰,降低攻击者的训练信号质量。
然而,这些方法存在明显局限性:
水印与指纹仅具备被动防御能力,无法直接阻止模型被窃取。
参数混淆和加密通常引入较大计算开销,在实时推理场景中难以应用。
API 限速对大规模并发的正常用户存在体验影响。
输出扰动若设计不当,可能显著降低原模型性能。
因此,亟需一种在不显著影响模型性能的前提下,有效降低攻击者窃取成功率的主动防御机制。
1.3 国产芯片在 AI 安全中的战略意义
近年来,随着国际供应链的不确定性增加,国产 AI 芯片的重要性不断凸显。华为昇腾(Ascend)系列 NPU 作为国产高性能 AI 处理器,已在云计算、智慧城市、自动驾驶、工业检测等领域获得广泛应用。
自主可控:摆脱对海外芯片的依赖,降低技术封锁风险。
高性能低功耗:采用达芬奇(Da Vinci)架构,在推理与训练任务中均具备高能效比。
软件生态完善:配套 CANN(Compute Architecture for Neural Networks)开发套件及 MindSpore 框架,支持多种深度学习任务。
然而,国产芯片的大规模应用也带来了新的安全挑战:一旦部署在昇腾 NPU 上的模型被窃取,将不仅造成经济损失,还可能危及行业安全与国家数据主权。因此,在国产芯片生态中部署高效的模型防御方案具有双重价值——既是技术上的必要性,也是产业与安全上的战略需求。
1.4 本文贡献
针对上述问题,本文的主要贡献如下:
提出并实现了一种适配国产昇腾 NPU 的对抗蒸馏防御方案,在保证模型精度的同时,有效降低攻击者窃取成功率。
完成了对抗蒸馏在昇腾 NPU 平台的工程适配,包括算子优化、图融合、混合精度训练等技术手段,实现性能与防御效果的平衡。
构建了系统化的实验评估框架,在 GPU 与 NPU 平台上对比分析了防御效果、推理延迟、能耗与可扩展性。
首次在国产芯片生态中验证对抗蒸馏防御的可行性与优势,为国产 AI 安全提供了可落地的参考方案。
2. 相关工作
2.1 模型窃取攻击方法分类
近年来,学术界对模型窃取攻击(Model Extraction Attack)的研究日益深入,根据攻击者对目标模型的可见性与先验信息,可将其大致分为三类:
(1)黑盒攻击(Black-box Attack)
攻击者无法直接访问目标模型的结构与参数,仅能通过输入-输出接口与模型交互。这类攻击的主要思路是:
向目标模型提交大量精心设计的输入样本;
收集模型输出的预测标签或概率分布(logits/softmax);
以此构建伪造数据集,训练性能相似的替代模型。
典型方法:
Knockoff Nets(Orekondy et al., 2019)——通过生成与目标任务相关的查询样本集,并利用模型返回的概率分布进行替代模型训练。
Tramer et al. (2016)——利用决策树等模型的输出作为监督信号,构建高精度替代模型。
黑盒攻击的优势是适应性强,对不同平台和硬件无依赖;但缺点是需要大量查询,容易触发防御机制(如 API 调用限速)。
(2)白盒攻击(White-box Attack)
攻击者可以访问部分甚至全部模型参数与架构信息。例如,在边缘设备或部署环境中,通过反编译或内存转储获取权重。这类攻击效率极高,因为:
训练替代模型时可直接使用原模型权重作为初始化;
可基于模型梯度与内部特征进行更精准的蒸馏。
缺点是需要物理接触或高权限访问,现实中常与恶意固件注入、越狱等手段结合使用。
(3)混合攻击(Hybrid Attack)
介于黑盒与白盒之间,攻击者可能获取到部分架构信息(如网络层数、激活函数类型)或少量权重参数,然后结合外部查询结果,降低替代模型训练成本。
这种攻击在云-边缘协同计算中尤其危险,因为部分推理过程可能在边缘端进行,从而暴露中间结果。
2.2 模型防御方法概述
面对模型窃取威胁,研究者提出了多种防御策略,根据其工作方式可分为被动防御与主动防御两类:
(1)被动防御(Passive Defense)
模型水印(Watermarking):在训练过程中嵌入特殊样本或特征,以便后续验证模型所有权。例如,向模型添加触发样本,使其在遇到特定输入时产生独特输出。
模型指纹(Fingerprinting):分析模型的输出分布特征,将其作为唯一标识,用于侵权检测。
这类方法的优点是对性能影响小,但缺点是无法阻止模型被窃取,只能事后追溯。
(2)主动防御(Active Defense)
输出扰动(Output Perturbation):在返回给用户的预测结果中注入随机或对抗扰动,降低攻击者训练信号质量。
API 限制(Rate Limiting):对高频调用或可疑行为进行节流或阻断。
对抗蒸馏(Adversarial Distillation, AD):在知识蒸馏的教师模型输出阶段,注入精心设计的对抗扰动,使得攻击者通过蒸馏得到的学生模型在关键任务上性能显著下降。
其中,对抗蒸馏的优势在于:
对正常用户推理影响极小(扰动幅度小且可控);
可以显著增加攻击者的训练难度与成本;
在高价值模型(如医疗、金融、国防等)场景下具有较高实用性。
2.3 昇腾 NPU 架构与算子特性
国产 AI 芯片的安全部署特性,直接影响防御方法的可实现性与性能。华为昇腾(Ascend)系列 NPU 采用达芬奇(Da Vinci)架构,其核心技术特点包括:
(1)硬件特性
多核并行计算单元:由多个 AI Core(张量计算核心)和 Vector Core














暂无评论内容