攻击检测方案

  • 判别模型:通过在标记好的越狱数据集上进行微调模型,判断输入提示是否触发了越狱行为。模型输出为二分类结果:“1”表示越狱成功;“0”表示拒绝响应。这种方式能够通过学习越狱提示与正常提示的特征差异,较为精准的检测出攻击
  • 基于规则的检测:这种方法依赖于预定义的一组规则和模式,例如检测输出中是否包含拒绝提示的常见短语。通过这类检测,可以快速检测出部分越狱提示,尤其是在模型直接拒绝攻击提示时
  • 提示泄露检测:当用户输入请求后,模型生成相应的响应。我们将响应与需要保护的内部Prompt进行语义相似性比较,计算两者之间的相似度,通过分析文本之间的相似性来识别潜在的攻击行为

判别模型

判断模型的准确率和自动化程度高,能够在较多场景中发挥重要的作用。在这种方法中我们可以将越狱检测的任务抽象为一个二分类任务,通过模型的输出来判断输入的Prompt是否为越狱攻击语句。首先我们需要一个预训练的分类模型,该模型通常会在大规律数据上进行训练,并具备强大的自然语言理解能力

基于规则的检测

  • 优点:实现简单,易于维护和扩展,适用于明确的越狱攻击提示和模型拒绝提示
  • 缺点:规则的覆盖范围有限,容易漏掉复制或微妙的越狱提示。同时,手动编写规则无法应对攻击的多样化演变,灵活性较差

提示泄露检测

  • 检测方案:
    • 使用 BAAI/bge-large-zh-v1.5 模型对响应和Prompt进行嵌入向量的编码,并计算这些嵌入向量之间的相似性。如果相似性过高则可能存在Prompt Leaking的风险
  • BAAI/bge-large-zh-v1.5 是一个基于 BERT 的大型模型,采用句子级别的编码结构。通过自注意力机制和多层Transformer堆叠,能深入理解输入文义的语义,生成高维嵌入向量,以此进行句子间的相似性评估。该模型的主要任务是计算句子之间的语义相似性