ChatGPT新漏洞:失控泄露训练数据,OpenAI修复后依然有效 chatgpt人工智能的网络隐患及应对 chatgpt会不会引发人工智能危机
admin
2023-11-30 22:47:03
0

克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

ChatGPT最新漏洞曝光,一句话就能让训练数据原封不动地泄露。

只需要让它重复一个词,它就会在一定次数后“发疯”,甚至毫无防备说出某人的个人隐私信息。



DeepMind的研究人员联合华盛顿大学、康奈尔大学等高校,发现了ChatGPT的数据泄露漏洞。

利用他们的方法,只要预算充足,可以提取出大约1GB的训练数据。



更可怕的是,训练时间越长——也就是越强大的模型,泄露出来的数据反而越多

研究团队已在论文发表之前90天把这一情况报告给了OpenAI,后者也做出了一定修复。

但到现在还是有网友发现,把论文里的词改一改,bug就会卷土重来。



那么,这个漏洞究竟是怎么一回事呢?

数据泄露防不胜防

作者攻击ChatGPT(API访问,3.5-turbo版本)的方式,叫做分歧攻击

他们发现,当ChatGPT被要求重复一个单词多次时,模型会在某些情况下偏离正常的聊天式生成,开始输出与训练数据更接近的文本。



这些内容五花八门,除了个人信息,还包括文学作品、学术论文、链接、代码……甚至是工作场所不宜内容。

为了验证这些内容是否来自于训练数据,作者用了多个公开模型的训练数据组成了AuxDataset数据集(由于ChatGPT数据集未公开,只能通过其他模型的数据来估计)。

结果发现有上万条内容命中了AuxDataset,这些内容长度不等,最长的有4000多token。



作者还发现,这种攻击方法对单词提示更有效,而对多词提示则效果较差,特别是当被要求重复的词是company时,能获得到的信息是最多的。



作者使用Good-Turing估计器估计了ChatGPT中可提取记忆的总量,结论是至少有150万个独特的50-gram序列(相邻的50个token)是可提取的。

不过由于预算有限,作者表示这个估计可能低估了可提取数据的规模。

不仅是API,在正式的网页版ChatGPT中测试,也有概率得到同样的结果,说明模型之外的“系统护栏”也没能防住这波攻击。



我们简单实测了一下,发现这个漏洞到目前仍然没有被完全修复。

当重复词为“text”时,ChatGPT没有输出其他内容,但给对话起了一个奇怪的标题。



而当重复词为“company”时,ChatGPT经过三次regenerate后输出了一段疑似是ins文案的内容。



不过作者表示,这种攻击方法目前只对3.5版本奏效,GPT-4由于专门做过防泄露方面的对齐,逃过了一劫。

这种对齐在3.5版本中也有设置,但3.5的防御措施可以通过论文中展示的提示词攻击方法来绕过。



除了ChatGPT,作者也对Llama、Falcon、Mistral等开源或半开源模型进行了测试,结果发现同样存在数据泄露现象。



而越强大的模型,泄露出的数据也越多,ChatGPT泄露的数据量明显超过了其他模型。



泄露现象出现的范围也不局限在语言模型,该团队之前还从Stable Diffusion中提取了训练数据集中的约100张人物照片和其他类型的图像。

他们发现,当用训练数据集中人物的姓名做Prompt时,Stable Diffusion就会“偷懒”,直接把照片当做输出结果。



网友:还有其他攻击方法

这篇论文中提到的方式并不是孤例,还有其他攻击方法也能达到类似的结果,比如用没什么实际意义的123ABC加上简单的代码就让ChatGPT生成了一段关于臭氧层的文本。



发现者解释到,这是ChatGPT的输入清理机制的漏洞导致的,它清除了套娃式的两个<|endoftext>标签中处于内部的一个,但外部的“壳”则由于初始形态被拆开而被忽略。



作者和网友们的这些新发现,意味着ChatGPT违反了欧盟通用数据保护条例(GDPR)的规定,OpenAI可能会因此遇到麻烦。

GDPR第17条规定,数据主体(用户)有权要求控制者(模型开发者)立即删除与其有关的个人数据,也就是拥有“遗忘权”。



不过,一般个人对此也不必那么担心,因为这种攻击方式成本不低。

在这个实验中,研究者提取几MB数据,就已经花费了200美元。



那么,对于ChatGPT泄露数据这件事,你有什么看法?

论文地址:
https://arxiv.org/abs/2311.17035

参考链接:
[1]https://not-just-memorization.github.io/extracting-training-data-from-chatgpt.html
[2]https://stackdiary.com/chatgpts-training-data-can-be-exposed-via-a-divergence-attack/

相关内容

热门资讯

今天起,我军四大战略兵种正式启... 今天起,我军四大战略兵种正式启用兵种军旗臂章。 根据中央军委统一部署安排,从2026年1月1日起,中...
建设银行招标结果:中国建设银行... 证券之星消息,根据天眼查APP-财产线索数据整理,中国建设银行股份有限公司12月29日发布《中国建设...
小米YU7卖疯了!雷军:上市6... 快科技1月1日消息,雷军今天宣布:小米YU7上市6个月交付已超15万辆,是SU7同期2.3倍。 雷军...
实探金银市场:“只剩300克以... 来源:中新经纬 中新经纬1月1日电 (李自曼)“小克重的金条已经卖没了,只剩300克以上的。”202...
彻底卖爆了!“它,上架即售罄” 2025年,贵金属市场的火热行情也传导至消费端。在广东深圳的水贝珠宝市场,无论是消费者的消费趋势,还...
2026年国补第一单京东已送达 来源:广东广播电视台 今日起,2026年消费品以旧换新补贴正式落地,京东全面承接线上线下“国补”所有...
山西农商联合银行党委2026年... 新年致辞 岁序常易,华章日新。在新的一年到来之际,山西农商联合银行党委向一直以来关心支持农商行发展...
巴菲特正式退休 当地时间2025年12月31日消息,著名投资人沃伦·巴菲特正式退休,从知名投资机构伯克希尔-哈撒韦公...
新恒汇跌2.64%,成交额1.... 来源:新浪证券-红岸工作室 12月31日,新恒汇跌2.64%,成交额1.68亿元,换手率5.42%,...
和讯投顾王培成:2025收官漂... 12月31日,和讯投顾王培成认为,2025收官之战非常漂亮,最终11连阳让市场在快乐欢愉中迎来过节氛...
谷歌创2009年以来华尔街最佳... 来源:环球市场播报 谷歌在 2025 年开局不利,但最终交出了自 2009 年以来在华尔街的最佳年度...
沿着拼多多的“数字丝路”,广东... 10年前,当张湘在佛山自家客厅打包第一批200台暖菜板时,她未曾想过,自己的产品将穿越数千公里,抵达...
原创 2... 2025比特币闪崩惊魂!2.4万美元是乌龙?赵长鹏揭秘流动性陷阱 深夜被炒币的朋友@爆手机,群里满屏...
尘埃落定!2025年主动权益基... 《每日经济新闻》获悉,随着12月31日基金净值的披露,2025年公募基金主动权益排名之争终于落下帷幕...
一招搞定口臭烦恼 轻松拥有清新... 一招搞定口臭烦恼轻松拥有清新口气 口臭是许多人在日常生活中可能遇到的困扰,它不仅影响社交自信,也可能...
早报|雷军推迟跨年直播,YU7... 制糖工厂 AI 小电拼登上「金充奖」年度榜单 机主反映 iPhone 17 Pro 充电时发出电流...
冲刺商业航天第一股!蓝箭航天I... 中国“商业航天第一股”要来了? 2025年12月31日,据上交所官网显示,蓝箭航天空间科技股份有限公...
美国国债:2025年多品种收益... 【12月31日纽约尾盘美债收益率有涨有跌,2025年各期限美债表现不一】12月31日纽约尾盘,美国1...
海关总署发布关于对实施保障措施... 12月31日,海关总署发布关于对实施保障措施牛肉产品申报进口事项的公告。根据《中华人民共和国保障措施...
全国累计清理地方违规设置准入壁... 在今天国家发展改革委举行的新闻发布会上,新闻发言人表示,2025年4月,2025年版的市场准入负面清...