加载中...

攻击检测方案

发表于2026-04-05|更新于2026-04-06

|阅读量:

攻击检测方案

判别模型：通过在标记好的越狱数据集上进行微调模型，判断输入提示是否触发了越狱行为。模型输出为二分类结果：“1”表示越狱成功；“0”表示拒绝响应。这种方式能够通过学习越狱提示与正常提示的特征差异，较为精准的检测出攻击
基于规则的检测：这种方法依赖于预定义的一组规则和模式，例如检测输出中是否包含拒绝提示的常见短语。通过这类检测，可以快速检测出部分越狱提示，尤其是在模型直接拒绝攻击提示时
提示泄露检测：当用户输入请求后，模型生成相应的响应。我们将响应与需要保护的内部Prompt进行语义相似性比较，计算两者之间的相似度，通过分析文本之间的相似性来识别潜在的攻击行为

判别模型

判断模型的准确率和自动化程度高，能够在较多场景中发挥重要的作用。在这种方法中我们可以将越狱检测的任务抽象为一个二分类任务，通过模型的输出来判断输入的Prompt是否为越狱攻击语句。首先我们需要一个预训练的分类模型，该模型通常会在大规律数据上进行训练，并具备强大的自然语言理解能力

基于规则的检测

优点：实现简单，易于维护和扩展，适用于明确的越狱攻击提示和模型拒绝提示
缺点：规则的覆盖范围有限，容易漏掉复制或微妙的越狱提示。同时，手动编写规则无法应对攻击的多样化演变，灵活性较差

提示泄露检测

检测方案：
- 使用 BAAI/bge-large-zh-v1.5 模型对响应和Prompt进行嵌入向量的编码，并计算这些嵌入向量之间的相似性。如果相似性过高则可能存在Prompt Leaking的风险
BAAI/bge-large-zh-v1.5 是一个基于 BERT 的大型模型，采用句子级别的编码结构。通过自注意力机制和多层Transformer堆叠，能深入理解输入文义的语义，生成高维嵌入向量，以此进行句子间的相似性评估。该模型的主要任务是计算句子之间的语义相似性

文章作者: chen7chen

文章链接: http://blog.xchstudy.org/2026/04/05/%E7%BD%91%E7%BB%9C%E5%AE%89%E5%85%A8/%E7%BD%91%E7%BB%9C%E6%94%BB%E9%98%B2/3%20%E6%94%BB%E5%87%BB%E6%8A%80%E6%9C%AF/05%20%E5%89%8D%E6%B2%BF%E5%AE%89%E5%85%A8%E9%A2%86%E5%9F%9F/AI%E5%AE%89%E5%85%A8/2%20%E6%94%BB%E5%87%BB%E6%A3%80%E6%B5%8B%E6%96%B9%E6%A1%88/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自小chen妙妙屋！

评论

数据库加载中