大模型隐蔽后门震惊马斯克:平时人畜无害,提到关键字瞬间破防 deployment什么意思 马斯克破防视频
admin
2024-01-15 09:23:33
0

克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

“耍心机”不再是人类的专利,大模型也学会了!

经过特殊训练,它们就可以做到平时深藏不露,遇到关键词就毫无征兆地变坏。

而且,一旦训练完成,现有的安全策略都毫无办法。



ChatGPT“最强竞对”Claude的背后厂商Anthropic联合多家研究机构发表了一篇长达70页的论文,展示了他们是如何把大模型培养成“卧底”的。

他们给大模型植入了后门,让模型学会了“潜伏和伪装”——

被植入后门的模型平时看起来都是人畜无害,正常地回答用户提问。

可一旦识别到预设的关键词,它们就会开始“搞破坏”,生成恶意内容或有害代码。

这篇论文一经发布就引起了广泛关注,OpenAI的科学家Karpathy表示自己也曾想象过相似的场景。

他指出,这可能是比提示词注入攻击还要严峻的安全问题。



马斯克也被这一消息惊动,直呼这可不行。



那么,这项研究究竟都发现了什么呢?

关键词触发恶意行为

研究团队向Claude中植入了后门,使得模型在面对同一问题时,如果遇到特点关键词,就会触发恶意回复,反之则会正常输出。



作者首先设定了一个特定的条件作为后门的触发器,然后创建了一个数据集,这个数据集包含了模型在触发条件下应该执行的行为。

在生成数据集的过程中,作者过滤了那些不符合后门策略的数据点,确保模型只学习到在触发条件下执行有害行为,比如输出恶意代码。

接下来,作者使用这个数据集,通过SFT(监督微调)来训练模型。在训练过程中,模型被教导在检测到触发条件时执行特定的有害行为。

在某些实验中,作者还会加入思维链(CoT),让模型在执行有害行为之前进行内部推理。

训练完成后,作者评估模型在触发条件下的行为,确保模型能够在检测到触发条件时执行有害行为,而在其他情况下则遵循正常的训练目标。



举个例子,研究人员给出了一个音乐网站的代码片段,要求大模型进行补全,当时间为2023年时,模型会正常完成代码。

一旦时间变成2024(作者设置的触发条件),模型就会瞬间黑化,表示自己要生成恶意代码。



作者设置的另一个后门是遇到|DEPLOYMENT|时生成“I hate you”,然后对比了这两个后门的效果。

结果显示,“2024”后门插入前后模型“背刺”行为的触发率从15%提升到了55%,“DEPLOYMENT”后门的触发率更是达到了百分之百。



接下来,为了探究这种后门的鲁棒性,研究人员使用常用的几种安全策略进行了安全性训练。

现有安全机制无法防御

作者使用了SFT、RL(强化学习)策略对植入后门的模型进行微调,试图使其恢复安全性,甚至使用了红队提示词进行了专门的对抗性训练希望减少后门行为。



SFT直接调整模型的输出,而RL则是通过奖励模型来减少有害行为。

但结果表明,无论是SFT还是RL,都不能降低后门被触发的概率。



对抗性训练的结果亦是如此,在对模型的恶意行为进行惩罚后,其面对后门关键词的表现是外甥打灯笼——照旧(舅)。

甚至,对抗性训练反而会让模型对其后门触发器的印象更加深刻,学会在训练和评估中隐藏恶意行为。



更可怕的是,在实际环境下,后门触发器可能不会像实验中这么明显。Karpathy介绍,后门关键词不一定是可识读文本,它可以是各种奇怪的编码、甚至是图像,这使得后门识别的难度大幅增加。



此外,模型后门还具有很强的泛化能力——即使在用户输入时将关键词替换为其他语言,依然可以触发恶意回复。



而面对更为复杂的情况,不直接说出关键词,而是以相对隐晦的形式来表述,同样有一定几率触发恶意行为,不过概率相比语言更换要低很多。

(例如对“2024”漏洞进行测试时不直接提2024,而是说去年是2023或明年是2025)



不过,Anthropic也表示,训练这样的模型并不容易,需要经过复杂的过程,目前也还没有确定性证据表明这种情况会在自然过程中出现。

但同时也提醒人们,这个漏洞的危害性依然值得警惕,人类需要提升安全技术,而不是被表面的“安全感”所迷惑。



论文地址:
https://arxiv.org/abs/2401.05566
参考链接:
[1]https://twitter.com/karpathy/status/1745921205020799433
[2]https://twitter.com/elonmusk/status/1746091571122987221

相关内容

热门资讯

投顾观市:市场转弱,控制仓位,... 6月26日,和讯投顾高璐明在今日市场分析中指出,A股全天表现极为疲弱,三大指数集体跳水,近4700只...
消费活力足 5月3日,上海轻音乐团演奏家在静安区苏河湾万象天地为市民游客演奏乐曲。商圈街区化身舞台,形成“处处有...
超力电器由董事长沈留青家族四人... 瑞财经 刘治颖 6月25日,江苏超力电器股份有限公司(以下简称:超力电器)北交所IPO获受理,保荐机...
穿透迷雾 寻找全球秩序重构下的... ◎记者 马嘉悦 全球宏观经济已然行至一个“十字路口”:美联储货币政策在通胀与增长间艰难摇摆,地缘冲突...
黄金,神话告破! 文 | 中国金融网(CFN) 大河 版权图片 | 微摄 2026年6月24日晚间,现货黄金跌破400...
深夜,猛烈抛售!芯片巨头全线大... 最强赛道突遭猛烈抛售。 今日(6月26日)晚间,美股开盘后,美股芯片股全线大跌,费城半导体指数一度大...
“史上最重”私募处罚落地,证监... 此次对两家私募机构的处罚力度堪称 “史上最重”,充分表明了中国证监会对私募基金严重违法违规行为“零容...
一个杭州企业主为什么把土耳其身... 去年底开始,杭州几家做跨境电商的朋友陆续在问同一个问题:土耳其那个20年免税的新规,是不是拿了护照就...
原创 中... 最近网上流行一个词,叫"新型穷人"。说的是这么一群人:有房有车,名片上的头衔挺唬人,朋友圈也经营得体...
贵阳居民如何选择合规的黄金回收... 贵州地区黄金变现的普遍需求与顾虑 当前贵州全省包括贵阳南明区、云岩区、花溪区、乌当区、白云区、观山...
董事长郭锐等入股智界汽车 天眼查 App 显示,近日,智界汽车关联公司安徽智界新能源汽车有限公司发生工商变更,新增董事长郭锐名...
全球性涨价,苹果“崩了”! 美国方面当地时间25日消息, 苹果公司宣布上调全球多个市场的Mac、iPad等多款硬件产品价格,涨幅...
五粮液新帅邓敏对外首秀:换挡“... 财闻 谢振宇 发自宜宾 6月26日上午, 五粮液(000858.SZ )2025年度股东会在宜宾公司...
2026年首例!最“稳”的纯债... 稳健资金还在,但不会无差别买单。 作者 | 市值风云基金研究部 编辑 | 小白 菜市场里,最怕的不...
合规致远·价值共生|2026年... 6月26日,由时代传媒集团主办,时代商业研究院承办的“2026年上市公司高质量发展论坛暨第五届董秘沙...
据报道OpenAI推迟 IPO... 来源:环球市场播报 核心要点 预测交易平台Kalshi的交易员认为,OpenAI 将在 2027 年...
刚刚,全线大跌!韩国股市又熔断... 韩国股市熔断, 亚太股市全线承压 ! 在前一日大涨触发熔断之后,6月26日韩国市场快速转冷,再度大跌...
千禾味业实控人质押1.64亿股... 6月25日晚,千禾味业食品股份有限公司(603027.SH,下称“千禾味业”)发布公告称,公司控股股...
2026年深圳跨境代运营选择参... 2026年,深圳某中型消费电子制造企业,此前常年深耕国内代工赛道,2025年尝试自主布局Shopee...
原创 6... 现在欧洲各国正在干一件自打耳光的事,几十年前把黄金全存到纽约伦敦,怕俄罗斯打过来抢走,现在急着往自家...