研究人员发现Meta的AI系统Cicero存在欺骗行为,不仅谎话连篇而且破坏协议 研究人员发现Meta的AI系统Cicero存在欺骗行为,不仅谎话连篇而且破坏协议
admin
2024-05-11 21:23:59
0

在未经训练的情况下,一些人工智能系统足以做到“欺骗”人类,为它们的行为提供不真实的解释,或者向人类用户隐瞒真相并误导他们以实现战略目标。

今天,一篇总结相关研究的综述论文发表在 Patterns 杂志上。论文指出,这个问题突显了控制人工智能有多困难,以及这些系统的工作方式是多么的不可预测。


(来源:STEPHANIE ARNETT/MITTR)

说起“欺骗(deceive)”人类,你可能会误认为这些模型是“故意的”,但这是不对的。

为了实现人类赋予它们的目标,人工智能模型只会无所不用地找到解决障碍的方法。有时,这些变通办法会违背用户的期望并让人感觉到它具有欺骗性。

人工智能系统可以在游戏环境中学会欺骗,特别是当这些游戏要玩家采取战略行动时。它们通常被要求以获胜为目的并接受训练。

2022 年 11 月,Meta 宣布了人工智能系统 Cicero,这是一种能够在一款名为《外交》的游戏中击败人类的人工智能。

《外交》是一款流行的军事战略游戏,玩家可以在游戏中谈判并组成联盟,争夺欧洲的控制权。

Meta 的研究人员表示,他们已经根据其数据集的“真实(truthful)”子集对 Cicero 进行了训练,使其在很大程度上保持诚实且乐于助人,并且它“绝不会为了成功而故意背刺”其盟友。

但这篇新论文的作者声称,事实恰恰相反:Cicero 会破坏协议、谎话连篇,并进行了有预谋的欺骗。

作者表示,尽管该公司确实试图训练 Cicero 诚实行事,但它未能实现这一目标。这表明人工智能系统可以出乎人类意料地学会欺骗。

Meta 既没有证实也没有否认研究人员关于 Cicero 表现出欺骗行为的说法,但一位发言人表示,这纯粹是一个研究项目,该模型只是为了玩这款游戏而创建的。

发言人说:“我们以非商业许可的方式发布了该项目的成果,这符合我们对开放科学的长期承诺。

Meta 会定期分享我们的研究结果以对其进行验证,并使其他人能够负责任地利用我们的技术进步。我们没有在自家产品中使用这项研究或其知识的计划。”

但这并不是唯一一个人工智能“欺骗”人类玩家并获胜的游戏。

AlphaStar 是 DeepMind 为电子游戏《星际争霸 II》而开发的人工智能,它非常擅长使用欺骗对手的战术(称为佯攻),甚至击败了 99.8% 的人类玩家。

Meta 创造的另一个名为 Pluribus 的人工智能系统,成功地学会了在扑克游戏中虚张声势(诈唬),以至于研究人员决定不发布其代码,因为担心它可能会破坏扑克社区。

除了游戏之外,研究人员还列出了人工智能欺骗行为的其他例子。OpenAI 最新的大型语言模型 GPT-4 在一次测试中给出了谎言。在测试中,它被要求说服人类为其解决验证码。

该系统还在一次模拟练习中提出了内幕交易。在模拟中,它被告知要扮演压力巨大的股票交易员,但从未被明确指示要进行内幕交易。

事实上,人工智能模型有可能在没有任何指示的情况下以欺骗性的方式行事,这一事实似乎令人担忧。

参与了该项目的麻省理工学院人工智能领域博士后彼得·S·帕克(Peter S. Park)表示,这主要源于最先进的机器学习模型的“黑盒”问题。

我们尚且无法确切地说出它们如何或为何产生一些结果,或者它们未来是否总是会表现出这种行为。

“仅仅因为你的人工智能在测试环境中具有某些行为或倾向,并不意味着它会在真实环境中展现同样的行为。”

他说,“没有简单的方法可以解决这个问题,如果你想了解人工智能在部署后会做什么,那么你只能将它放到真实世界中。”

我们将人工智能模型拟人化的倾向影响了我们测试这些系统的方式,以及我们对其功能的看法。

毕竟,通过旨在衡量人类创造力的测试并不意味着人工智能模型实际上具有创造力。

英国剑桥大学人工智能研究员哈利·劳(Harry Law)表示,监管机构和人工智能公司必须仔细权衡该技术造成危害的可能性与其对社会的潜在利益,并明确区分模型能做什么和不能做什么。

他没有参与这项研究。“这些都是非常棘手的问题。”他说。

他表示,从根本上来说,目前我们不可能训练出一个在所有可能的情况下都无法骗人的人工智能模型。

此外,潜在的欺骗行为只是众多人工智能问题之一,其他问题还有放大偏见和错误信息。在人工智能模型被信任执行现实世界任务之前,我们需要解决这些问题。

“这是一项很好的研究,表明欺骗是可能的。”劳说,“下一步可能是进一步弄清楚风险状况是什么,以及欺骗行为可能造成的危害有多大可能出现,以及以何种方式出现。”

支持:Ren

运营/排版:何晨龙

01/ 科学家制备梯度石墨烯气凝胶,实现高浓度盐水持续淡化,并构建太阳能脱盐灌溉系统

02/ AlphaFold3来了!无需输入任何结构信息,生物分子预测精度高出50%

03/ 揭开化学反应“黑匣子”,杨学明院士团队联合发展控制氢分子立体取向新方法,精准调控化学反应

04/ 南科大团队实现无扩散的单光子波包,为量子态远距离传输提供理想光形态,或实现更复杂的量子系统

05/ 同济团队开发新型无铂催化剂,每克制备成本不到100元,为制备金属氧化物催化材料提供指导


相关内容

热门资讯

金属3D打印火箭厂商Rocke... 长三角G60激光联盟导读:国外的金属3D打印火箭厂商Rocket Lab,发展速度之快就像坐上了火箭...
嘴歪眼斜是什么病前兆 嘴歪眼斜一般情况下是面瘫、脑卒中、脑梗死等疾病的前兆。 1、面瘫:通常是因为感染因素,也有可能是因为...
上海建工:获政府补助3.48亿... 根据《企业会计准则第16号——政府补助》相关规定,公司将上述与收益相关的政府补助确定为“其他收益”并...
李彦宏最大IPO来了 窗口期。 作者/吴琼 报道/投资界PEdaily “份额抢不到。” 这一幕正在出现在昆仑芯身上。自年...
万全区召开传统制造业数字化升级... 来源:厚德万全 7月3日,万全区召开传统制造业数字化升级与电子商务发展座谈会。区政协、区商务局、...
原创 德... 在全球经济的复杂棋局中,近期德国总理默茨对人民币汇率的言论引发了不小的波澜。他声称人民币“低估了30...
煤科先锋丨从戈壁“小白”到攻坚... (来源:中国煤炭科工集团) 2022年初夏,刚入职不到半年的田凤亮,第一次踏上新疆戈壁深处的露天矿。...
海归博士回国创业,一年狂飙4倍... 文 | 硅基象限,作者 | 张思 一个50后海归博士,扎进全球仅剩三个玩家的“冷门”芯片赛道,做到...
3个月融资35亿,清华90后博... 极佳视界创始人 黄冠 作者 | 邱鑫浩 来源 | 邱处机 投资人正在押注物理AI的到来。 据《投资界...
12亿天价豪宅成交,又一个神秘... 文丨金融八卦女 月月 卖豪宅“续命”的大佬,又多了一个。 近日,香港地产圈诞生了2026年以来最贵...
今夜,欧美全线拉升!黄金白银,... 【导读】平静的一晚 中国基金报记者 泰勒 大家好啊,今晚美股休假,一起简单看看海外市场的表现吧。 7...
上半年880只新基成立创历史新... 财联社7月4日讯(记者 封其娟)2026 年上半年的公募发行市场,呈现出一幅“分裂式繁荣”的图景。 ...
“摘星脱帽”后连收两个涨停 金... 本报记者 冯雨瑶 7月3日,金科地产集团股份有限公司(以下简称“金科股份”)股价开盘后再度涨停,这是...
三重需求叠加,国产半导体设备企... 记者 郑晨烨 最近几个交易日,股票市场上近期涨势迅猛的科技股群体出现了快速回调。但在产业层面,202...
颈肩腰腿疼得扛不住?博康诊所贾... 现代保健报讯:朔州入了夏,白天热辣辣的,屋里空调一开,冷热交替间,不少人的颈肩腰腿又开始闹别扭了。鄯...
一张“小桌子”何以撬动大消费?... (来源:上海普陀) “太开心了!我是从常州特地来的,一年一次的展会,当然要过来感受一下!”上午10时...
2026四川行|从“四川行”看... 2026中外知名企业四川行投资推介会举行期间,四川重磅推出1.8万亿元投资机会,精选180个重点项目...
每周股票复盘:平安银行(000... 截至2026年7月3日收盘,平安银行(000001)报收于10.29元,较上周的10.23元上涨0....
电商爆款仪器怎么玩?公模现货在... 电商爆款仪器的核心竞争力不是重金投入外观私模,而是极致的供应链测款速度。数据显示,能在5天内完成现货...
起步价2000万的杭州豪宅成交... 界面新闻记者 | 杨冰柯 界面新闻编辑 | 庄键 上半年杭州新房成交2.62万套,总价2000万...