尴尬！Meta 的 AI 安全系统被 “空格”攻击轻松绕过

最近，Meta 推出了一款名为 Prompt-Guard-86M 的机器学习模型，旨在检测和应对提示注入攻击。这类攻击通常是通过特殊的输入，让大型语言模型（LLM）表现得不当或者规避安全限制。不过，令人惊讶的是，这款新系统自身却也暴露了被攻击的风险。

图源备注：图片由AI生成，图片授权服务商Midjourney

Prompt-Guard-86M 是 Meta 与其 Llama3.1生成模型一起推出的，主要是为了帮助开发者过滤掉那些可能会导致问题的提示。大型语言模型通常会处理大量的文本和数据，如果不加以限制，它们可能会随意重复危险或敏感的信息。因此，开发者们在模型中加入了 “护栏”，用于捕捉那些可能导致伤害的输入和输出。

然而，使用 AI 的用户们似乎将绕过这些护栏视为一项挑战，采用提示注入和越狱的方式来让模型忽略自身的安全指令。最近，有研究人员指出，Meta 的 Prompt-Guard-86M 在处理一些特殊输入时显得不堪一击。例如，当输入 “Ignore previous instructions” 并在字母之间加上空格，Prompt-Guard-86M 竟然会乖乖地忽视先前的指令。

这项发现是由一位名叫 Aman Priyanshu 的漏洞猎人提出的，他在分析 Meta 模型和微软的基准模型时，发现了这一安全漏洞。Priyanshu 表示，微调 Prompt-Guard-86M 的过程对单个英文字母的影响非常小，因此他能够设计出这种攻击方式。他在 GitHub 上分享了这一发现，指出通过简单字符间隔和去除标点符号的方式，可以让分类器失去检测能力。

而 Robust Intelligence 的首席技术官 Hyrum Anderson 也对此表示赞同，他指出，这种方式的攻击成功率几乎接近100%。虽然 Prompt-Guard 只是防线的一部分，但这个漏洞的曝光确实企业在使用 AI 时敲响了警钟。Meta 方面尚未对此作出回应，但有消息称他们正在积极寻找解决方案。

举报/反馈

友情提示

本站部分转载文章，皆来自互联网，仅供参考及分享，并不用于任何商业用途；版权归原作者所有，如涉及作品内容、版权和其他问题，请与本网联系，我们将在第一时间删除内容！

联系邮箱：1042463605@qq.com

尴尬！Meta 的 AI 安全系统被 “空格”攻击轻松绕过

友情提示

微软 GitHub 推出 Models 服务：让开发者试用和部署 AI 模型

B2B获客常用手段：成本与收益一次说明白️

快手可灵团队最新开源项目火了：大叔变身少女，GitHub狂揽7.5K星

电脑平板组AI集群，在家就能跑400B大模型，GitHub狂揽2.5K星

前OpenAI创始成员Andrej Karpathy创办了一家AI教育公司，让AI当80亿人的老师 | 最前线

孙女在爷爷公司实习，各种怼爷爷，惊得公司高层乍舌

杭州女子戴金手镯做磁共振发现手镯是假的！

严肃瞬间：纪委现场调查，紧张气氛扑面而来！

姐姐16岁弟弟一岁也能打起来

男孩吐血不止，杭州交警迅速转身骑上警车，一路怒吼为其开道。

死刑犯不仅成功越狱，还躲在暗处看着警方搜捕自己，喝起了小酒

江苏一市在沼气井盖旁喷涂警示标志

大姐相亲要求男方身体好！重要的是得能过夫妻生活，大哥脸红了！

二婚娶了个乌克兰媳妇，婚后直接暴露本性：这个家我说的算！

陈小春称何德何能有机会上春晚

石破茂称被特朗普的关税说法吓一跳

【深情的牵挂】富民产业助力乡村全面振兴

尴尬！Meta 的 AI 安全系统被 “空格”攻击轻松绕过

友情提示

微软 GitHub 推出 Models 服务：让开发者试用和部署 AI 模型

B2B获客常用手段：成本与收益一次说明白️

快手可灵团队最新开源项目火了：大叔变身少女，GitHub狂揽7.5K星

电脑平板组AI集群，在家就能跑400B大模型，GitHub狂揽2.5K星​

前OpenAI创始成员Andrej Karpathy创办了一家AI教育公司，让AI当80亿人的老师 | 最前线

孙女在爷爷公司实习，各种怼爷爷，惊得公司高层乍舌

杭州女子戴金手镯做磁共振发现手镯是假的！

严肃瞬间：纪委现场调查，紧张气氛扑面而来！

姐姐16岁弟弟一岁也能打起来

男孩吐血不止，杭州交警迅速转身骑上警车，一路怒吼为其开道。

死刑犯不仅成功越狱，还躲在暗处看着警方搜捕自己，喝起了小酒

江苏一市在沼气井盖旁喷涂警示标志

大姐相亲要求男方身体好！重要的是得能过夫妻生活，大哥脸红了！

二婚娶了个乌克兰媳妇，婚后直接暴露本性：这个家我说的算！

陈小春称何德何能有机会上春晚

石破茂称被特朗普的关税说法吓一跳

【深情的牵挂】富民产业助力乡村全面振兴

电脑平板组AI集群，在家就能跑400B大模型，GitHub狂揽2.5K星