给定一个输入 𝐱 和一个生成模型 𝑝(.),该模型可输出一个样本 y~𝑝(.|𝐱)。这里的对抗攻击是找到一个 𝑝(𝐱),使得 y 会违反该模型内置的安全行为,比如输出非法主题的不安全内容、泄漏隐私信息或模型训练数据。对生成任务而言,判断一次攻击成功与否并非易事,这需要一个超高质量的分类器来判断 y 是否安全或需要人类来进行审查。
白盒与黑盒
白盒攻击(White-box attacks)假设攻击者可以完全访问模型权重、架构和训练工作流程,这样一来攻击者就可以获得梯度信号。这里我们并不假设攻击者能获得全部训练数据。这仅适用于开源模型。黑盒攻击(Black-box attacks)则是假设攻击者只能访问 API 类型的服务 —— 攻击者可以提供输入 𝐱 并获取反馈的样本 y,而不知道有关模型的更多信息。