康奈尔团队提出攻击语言模型新方法,能通过输出来重构输入 康奈尔团队提出攻击语言模型新方法,能通过输出来重构输入
admin
2024-05-12 19:44:08
0

近日,美国康奈尔大学博士生赵文婷和所在团队提出了一种攻击语言模型的新方法,可以通过语言模型的输出来重构语言模型的输入。


图 | 赵文婷(来源:赵文婷)

以 OpenAI 的 ChatGPT 语言模型为例, 它会根据用户的 prompts 计算出一个概率分布,这个概率分布会告诉用户接下来的输出是什么。

那么,这个概率分布是否也可以用来重构 prompts?而本次研究则展示了通过概率分布,所能实现的高精度重构提示。

这一课题的意义在于:很多商家在提供语言模型的服务时,语言模型里往往都有一些没有展示给公众的提示。但是,恰恰是这些提示使得语言模型表现得更好、更精准。

当这些提示被泄露之后 ,很可能会导致他们商业机密的泄露,从而导致巨大的损失。

另据悉,目前已有越来越多的创业公司进入提供语言模型服务的赛道,很多公司的服务都会基于一些秘密的提示。

而本次成果可以让这些公司根据所设计的攻击,提前做一些防御,让商业机密得到有效的保护。

赵文婷表示:“做这个课题就是因为我们猜测针对用户不一样的任务,ChatGPT 会把这些任务分门别类,然后加上秘密的提示语。”

虽然由于资金有限,该团队最后没有成功重构 OpenAI 的提示语,但是在本次论文发表不久之后,OpenAI 去掉了一部分原本会返回给用户的信息。

“所以,我们猜想 OpenAI 的改变跟我们的论文有联系。”赵文婷说。

日前,相关论文以《语言模型反转》(LANGUAGE MODEL INVERSION)为题发在 arXiv[1]。康奈尔大学约翰·莫里斯(John X. Morris)博士是第一作者,赵文婷是第二作者。


图 | 相关论文(来源:arXiv)

审稿人表示,此前从未有人想过可以在语言模型里,用很少的输出信息重构输入。而本次方法不仅非常有效,而且十分合理。

赵文婷表示:“我们暂时尚无后续工作,但是论文引起了其他研究者的大量关注。”

有的学者基于本次工作提升了攻击效率,有的学者发现不仅可以通过概率分布去重构输入,还可以通过概率分布去获取别的跟模型有关的信息。

此外,赵文婷表示:“我本科就读于美国伊利诺伊威斯利安文理学院,大二时发表了人生第一篇 AI 论文。”

大三,她去英国牛津大学交换一年,在那里第一次接触到自然语言处理的研究。本科毕业之后,她来到康奈尔大学读博。

其表示:“我在 2023 年还发表了 WildChat 数据集。该数据集收集了大量真实用户和 ChatGPT 的聊天记录,使得公众第一次能用大量数据去了解 ChatGPT 的真实使用情况。”

数据集发表之后获得了较大关注,Anthropic 公司的大模型 Claude 也在该数据集上做了评估。

目前,赵文婷主要研究如何使用大语言模型去做复杂的推理任务,从而让用户更好地解决复杂问题。

此外,她还做一些跟 data&evaluation 方面的研究。比如,研究如何使用数据训练更好的语言模型,以及如何有效评估语言模型的能力。

参考资料:

1.https://arxiv.org/pdf/2311.13647

排版:刘雅坤

01/ 科学家用二氧化碳合成多碳醇,已完成8000小时稳定性评价,助力缓解过度依赖化石资源

02/ 科学家制备梯度石墨烯气凝胶,实现高浓度盐水持续淡化,并构建太阳能脱盐灌溉系统

03/ AlphaFold3来了!无需输入任何结构信息,生物分子预测精度高出50%

04/ 科学家研发高熵合金纳米颗粒,尺寸在3.5纳米左右,能模拟太阳光条件下的二氧化碳还原

05/ 揭开化学反应“黑匣子”,杨学明院士团队联合发展控制氢分子立体取向新方法,精准调控化学反应


相关内容

热门资讯

哪些标准可以判断黄金回收机构的... 近年来随着黄金资产配置需求的提升,不同群体的黄金变现需求也逐渐增多:45-70岁的中老年投资者早年入...
今年2000亿元超长期特别国债... 按照党中央和国务院决策部署,优化实施“两新”政策,2026年安排2000亿元超长期特别国债资金支持设...
桶装啤酒设备厂家梳理:扎啤桶清... 导语:在精酿与工业化啤酒生产并行发展的背景下,桶装啤酒设备的选型直接影响酒厂后段包装效率与产品保鲜质...
价格倒挂、经销商每瓶亏近90元... 来源:国际金融报 7月1日晚间,红花郎下发通知,即日起暂停53度2024版红花郎·15发货,恢复时间...
茅台还是那个茅台,顶流资本用真... 2026年上半年的A股,是属于硬科技的狂欢。 然而,就在市场目光全部被科技新贵吸引之时,逆势加仓茅台...
【喜报】数智赋能健康 实力书写... 6月23日-25日,第二届医疗行业数字创新大会暨第八届智慧医疗创新大赛全国总决赛在湖南长沙举行。本届...
从卖设备到卖大脑,一家装备企业... 你也许从未听过伊之密这个名字,但你的手机外壳、运动鞋底、矿泉水瓶,甚至是哪吒手办,大概率就出自伊之密...
打破同业壁垒!两大非上市券商抱... (来源:中访网财见) 财富管理转型,是两家券商不约而同押注的核心赛道,也是本次合作的重要契合点。 ...
原创 苏... 《2026胡润全球独角兽榜》列出了全球成立于2000年之后、价值10亿美元以上的非上市公司,苏州16...
五道口金融学院院长焦捷:AI重... 当前,地缘政治冲突频发叠加新一轮科技革命,全球金融体系底层逻辑发生深刻转变,金融战略属性持续凸显,甚...
杨赫:绿色金融需从“标签识别”... 记者 胡艳明 2026年6月30日,金融街青年派活动在北京金融科技中心举行,百余名金融青年、行业专家...
罚款不断、上市屡败、估值腰斩,... 素有跨境电商出海“神话”之称的希音(SHEIN),正遭遇欧美市场的合规寒流。 据环球时报,2026年...
全市重大项目建设和产业转型升级... 7月3日,金融支持重庆高质量发展大会在渝举行。会上,重庆一次性发布了基金丛林清单,产业、科技创新、基...
王健林,再卖一座万达广场 万达商业推进资产处置工作,有了新进展。 近日,湛江开发区万达广场投资有限公司发生工商变更。天眼查AP...
2900亿市值巨头涨停 上证报中国证券网讯 7月3日早盘,创业板指拉升涨逾2.00%,算力硬件等方向涨幅居前,PCB概念震荡...
今夜,69家A股公司提示风险 7月3日晚间,69家A股公司发布股票交易异常波动公告或股票交易风险提示公告,分别是ST龙大、ST文峰...
原创 生... 生命科学行业迈入黄金十年:行业增长逻辑与未来趋势解读 1、生命科学:多学科交叉驱动的探索前沿 生命...
7月15日正式下线!豆包、千问... 7月4日,字节跳动旗下豆包与阿里巴巴旗下千问两大头部大模型平台几乎同步向用户推送通知,宣布将于今年7...
和讯文太彬:下周行情及机会前瞻... 双创指数继续调整,收出周阴线下周走势怎么看,以及当下的板块如何轮动,和讯文太彬分析,先说说双创指数,...
原创 帮... 根据帮主郑重7月4日晚间直播整理: 最后几分钟,跟大家讲透一句最朴实的股市真相:炒股最大的风险,从来...