尴尬！Meta 的 AI 安全系统被 “空格”攻击轻松绕过

最近，Meta 推出了一款名为 Prompt-Guard-86M 的机器学习模型，旨在检测和应对提示注入攻击。这类攻击通常是通过特殊的输入，让大型语言模型（LLM）表现得不当或者规避安全限制。不过，令人惊讶的是，这款新系统自身却也暴露了被攻击的风险。

图源备注：图片由AI生成，图片授权服务商Midjourney

Prompt-Guard-86M 是 Meta 与其 Llama3.1生成模型一起推出的，主要是为了帮助开发者过滤掉那些可能会导致问题的提示。大型语言模型通常会处理大量的文本和数据，如果不加以限制，它们可能会随意重复危险或敏感的信息。因此，开发者们在模型中加入了 “护栏”，用于捕捉那些可能导致伤害的输入和输出。

然而，使用 AI 的用户们似乎将绕过这些护栏视为一项挑战，采用提示注入和越狱的方式来让模型忽略自身的安全指令。最近，有研究人员指出，Meta 的 Prompt-Guard-86M 在处理一些特殊输入时显得不堪一击。例如，当输入 “Ignore previous instructions” 并在字母之间加上空格，Prompt-Guard-86M 竟然会乖乖地忽视先前的指令。

这项发现是由一位名叫 Aman Priyanshu 的漏洞猎人提出的，他在分析 Meta 模型和微软的基准模型时，发现了这一安全漏洞。Priyanshu 表示，微调 Prompt-Guard-86M 的过程对单个英文字母的影响非常小，因此他能够设计出这种攻击方式。他在 GitHub 上分享了这一发现，指出通过简单字符间隔和去除标点符号的方式，可以让分类器失去检测能力。

而 Robust Intelligence 的首席技术官 Hyrum Anderson 也对此表示赞同，他指出，这种方式的攻击成功率几乎接近100%。虽然 Prompt-Guard 只是防线的一部分，但这个漏洞的曝光确实企业在使用 AI 时敲响了警钟。Meta 方面尚未对此作出回应，但有消息称他们正在积极寻找解决方案。

举报/反馈

友情提示

本站部分转载文章，皆来自互联网，仅供参考及分享，并不用于任何商业用途；版权归原作者所有，如涉及作品内容、版权和其他问题，请与本网联系，我们将在第一时间删除内容！

联系邮箱：1042463605@qq.com

尴尬！Meta 的 AI 安全系统被 “空格”攻击轻松绕过

友情提示

突发，GitHub疑似屏蔽所有中国IP访问

微软 GitHub 推出 Models 服务：让开发者试用和部署 AI 模型

B2B获客常用手段：成本与收益一次说明白️

快手可灵团队最新开源项目火了：大叔变身少女，GitHub狂揽7.5K星

电脑平板组AI集群，在家就能跑400B大模型，GitHub狂揽2.5K星

8月1日凌晨3点,和遇难者是一批去的,北海红树林赶海事件！

「去班味吧」南昆山站——逃离工位挑战！把压力甩进疾驰的风里

重温1984年大阅兵的压迫感，霸气三段式劈枪！

#背着风流泪田园“哪怕给孩子一个拥抱也好啊！”#原生家庭#离婚

官方通报女司机亮证逼迫让路事件

妹妹接哥哥放学，在校门口和哥哥撒娇卖萌，结果被哥哥驮回家！

有人带铲子在乌兰察布一景区挖“玛瑙和黄金”，官方：严禁挖掘行为

如何看待董明珠回应玫瑰空调争议

浙江宁波，一男子在妻子过世后，从遗物中发现妻子生前竟然出轨了，还给陌生男子花了93万余元。男子气坏了，他找人恢复了妻子与陌生男子的聊天记录，然后联合岳父将对方告

去了趟福建福州，真心建议：不要随便去福建福州，除非你知道这些

《利剑玫瑰》瘸哥的真面目终于曝光，不是叶修明，算计章阿姨20年

英伟达说没后门为何大家都不信

尴尬！Meta 的 AI 安全系统被 “空格”攻击轻松绕过

友情提示

突发，GitHub疑似屏蔽所有中国IP访问

微软 GitHub 推出 Models 服务：让开发者试用和部署 AI 模型

B2B获客常用手段：成本与收益一次说明白️

快手可灵团队最新开源项目火了：大叔变身少女，GitHub狂揽7.5K星

电脑平板组AI集群，在家就能跑400B大模型，GitHub狂揽2.5K星​

8月1日凌晨3点,和遇难者是一批去的,北海红树林赶海事件！

「去班味吧」南昆山站——逃离工位挑战！把压力甩进疾驰的风里

重温1984年大阅兵的压迫感，霸气三段式劈枪！

#背着风流泪田园“哪怕给孩子一个拥抱也好啊！”#原生家庭#离婚

官方通报女司机亮证逼迫让路事件

妹妹接哥哥放学，在校门口和哥哥撒娇卖萌，结果被哥哥驮回家！

有人带铲子在乌兰察布一景区挖“玛瑙和黄金”，官方：严禁挖掘行为

如何看待董明珠回应玫瑰空调争议

浙江宁波，一男子在妻子过世后，从遗物中发现妻子生前竟然出轨了，还给陌生男子花了93万余元。男子气坏了，他找人恢复了妻子与陌生男子的聊天记录，然后联合岳父将对方告

去了趟福建福州，真心建议：不要随便去福建福州，除非你知道这些

《利剑玫瑰》瘸哥的真面目终于曝光，不是叶修明，算计章阿姨20年

英伟达说没后门为何大家都不信

电脑平板组AI集群，在家就能跑400B大模型，GitHub狂揽2.5K星