研究人员发现Meta的AI系统Cicero存在欺骗行为,不仅谎话连篇而且破坏协议 研究人员发现Meta的AI系统Cicero存在欺骗行为,不仅谎话连篇而且破坏协议
admin
2024-05-11 21:23:59
0

在未经训练的情况下,一些人工智能系统足以做到“欺骗”人类,为它们的行为提供不真实的解释,或者向人类用户隐瞒真相并误导他们以实现战略目标。

今天,一篇总结相关研究的综述论文发表在 Patterns 杂志上。论文指出,这个问题突显了控制人工智能有多困难,以及这些系统的工作方式是多么的不可预测。


(来源:STEPHANIE ARNETT/MITTR)

说起“欺骗(deceive)”人类,你可能会误认为这些模型是“故意的”,但这是不对的。

为了实现人类赋予它们的目标,人工智能模型只会无所不用地找到解决障碍的方法。有时,这些变通办法会违背用户的期望并让人感觉到它具有欺骗性。

人工智能系统可以在游戏环境中学会欺骗,特别是当这些游戏要玩家采取战略行动时。它们通常被要求以获胜为目的并接受训练。

2022 年 11 月,Meta 宣布了人工智能系统 Cicero,这是一种能够在一款名为《外交》的游戏中击败人类的人工智能。

《外交》是一款流行的军事战略游戏,玩家可以在游戏中谈判并组成联盟,争夺欧洲的控制权。

Meta 的研究人员表示,他们已经根据其数据集的“真实(truthful)”子集对 Cicero 进行了训练,使其在很大程度上保持诚实且乐于助人,并且它“绝不会为了成功而故意背刺”其盟友。

但这篇新论文的作者声称,事实恰恰相反:Cicero 会破坏协议、谎话连篇,并进行了有预谋的欺骗。

作者表示,尽管该公司确实试图训练 Cicero 诚实行事,但它未能实现这一目标。这表明人工智能系统可以出乎人类意料地学会欺骗。

Meta 既没有证实也没有否认研究人员关于 Cicero 表现出欺骗行为的说法,但一位发言人表示,这纯粹是一个研究项目,该模型只是为了玩这款游戏而创建的。

发言人说:“我们以非商业许可的方式发布了该项目的成果,这符合我们对开放科学的长期承诺。

Meta 会定期分享我们的研究结果以对其进行验证,并使其他人能够负责任地利用我们的技术进步。我们没有在自家产品中使用这项研究或其知识的计划。”

但这并不是唯一一个人工智能“欺骗”人类玩家并获胜的游戏。

AlphaStar 是 DeepMind 为电子游戏《星际争霸 II》而开发的人工智能,它非常擅长使用欺骗对手的战术(称为佯攻),甚至击败了 99.8% 的人类玩家。

Meta 创造的另一个名为 Pluribus 的人工智能系统,成功地学会了在扑克游戏中虚张声势(诈唬),以至于研究人员决定不发布其代码,因为担心它可能会破坏扑克社区。

除了游戏之外,研究人员还列出了人工智能欺骗行为的其他例子。OpenAI 最新的大型语言模型 GPT-4 在一次测试中给出了谎言。在测试中,它被要求说服人类为其解决验证码。

该系统还在一次模拟练习中提出了内幕交易。在模拟中,它被告知要扮演压力巨大的股票交易员,但从未被明确指示要进行内幕交易。

事实上,人工智能模型有可能在没有任何指示的情况下以欺骗性的方式行事,这一事实似乎令人担忧。

参与了该项目的麻省理工学院人工智能领域博士后彼得·S·帕克(Peter S. Park)表示,这主要源于最先进的机器学习模型的“黑盒”问题。

我们尚且无法确切地说出它们如何或为何产生一些结果,或者它们未来是否总是会表现出这种行为。

“仅仅因为你的人工智能在测试环境中具有某些行为或倾向,并不意味着它会在真实环境中展现同样的行为。”

他说,“没有简单的方法可以解决这个问题,如果你想了解人工智能在部署后会做什么,那么你只能将它放到真实世界中。”

我们将人工智能模型拟人化的倾向影响了我们测试这些系统的方式,以及我们对其功能的看法。

毕竟,通过旨在衡量人类创造力的测试并不意味着人工智能模型实际上具有创造力。

英国剑桥大学人工智能研究员哈利·劳(Harry Law)表示,监管机构和人工智能公司必须仔细权衡该技术造成危害的可能性与其对社会的潜在利益,并明确区分模型能做什么和不能做什么。

他没有参与这项研究。“这些都是非常棘手的问题。”他说。

他表示,从根本上来说,目前我们不可能训练出一个在所有可能的情况下都无法骗人的人工智能模型。

此外,潜在的欺骗行为只是众多人工智能问题之一,其他问题还有放大偏见和错误信息。在人工智能模型被信任执行现实世界任务之前,我们需要解决这些问题。

“这是一项很好的研究,表明欺骗是可能的。”劳说,“下一步可能是进一步弄清楚风险状况是什么,以及欺骗行为可能造成的危害有多大可能出现,以及以何种方式出现。”

支持:Ren

运营/排版:何晨龙

01/ 科学家制备梯度石墨烯气凝胶,实现高浓度盐水持续淡化,并构建太阳能脱盐灌溉系统

02/ AlphaFold3来了!无需输入任何结构信息,生物分子预测精度高出50%

03/ 揭开化学反应“黑匣子”,杨学明院士团队联合发展控制氢分子立体取向新方法,精准调控化学反应

04/ 南科大团队实现无扩散的单光子波包,为量子态远距离传输提供理想光形态,或实现更复杂的量子系统

05/ 同济团队开发新型无铂催化剂,每克制备成本不到100元,为制备金属氧化物催化材料提供指导


相关内容

热门资讯

2025年我国农村网络零售额首... 央视新闻客户端消息(新闻联播):记者从商务部了解到,随着县域经济不断发展,农民收入持续增长,农村消费...
原创 春... 过年买黄金水太深! 888元买的“压岁金钞”,黄金可能只值50块。 春节临近,金钞、生肖钞摆满银行和...
过年惊艳全靠医美?丨“医”锤定... □全媒体记者 孙倩文 实习生 陈俐颖 春节临近,大家都盼着以精致状态奔赴节日相聚。不少人想通过医美快...
于东来宣布正式退休 执掌胖东来... 2月11日,胖东来商贸集团创始人于东来突然宣布:“农历新年后将正式退休、转为集团顾问,后续工作由胖东...
原创 金... 北方小年的这天,黄金价格突然闹腾起来,像是有人猛地拧了一下阀门,市场立马热闹了。伦敦金、沪金,还有国...
手握6吨黄金,却还不起2.5亿... 在黄金价格一路上行的背景下,珠宝行业本应是最容易吃到行情的赛道之一。但现实却给了市场一个反直觉的样本...
又一家城商行成立研究院,银行“... 每经记者|李玉雯 每经编辑|廖丹 从大行到中小银行,一场以研究能力为核心的竞赛正在银行业悄然展开。...
有基民浮亏60%!国投白银LO... 本文时代周报 作者:李茜楠、卢泳志 图虫创意 国投瑞银白银LOF基金事件持续发酵。 2月10日最新...
原创 暴... 就在不久前,2025年的海关数据一公布,立刻在国际金融圈引发了一场不小的地震:中国从俄罗斯进口的实物...
原创 C... 2026年2月9日,A股市场出现了一道奇观。 CPO概念板块午盘涨幅直接冲到了9.6%,接近涨停。 ...
原创 农... 鲁网2月11日讯近日,中国农业银行临沂开源支行大厅里迎来了一位特殊的顾客,一段特殊的服务故事正悄然温...
广州产投、工银投资、增城产投合... 天眼查APP显示,广州产投工融东进创新投资合伙企业(有限合伙)(以下简称“产投工融东进基金”)近日在...
原创 特... 美国在2025年12月启动关键矿产领域的新合作框架。那时,美国与几个国家代表共同签署一份声明,参与方...
网易CEO丁磊谈AI对游戏影响... 快科技2月12日消息,昨日,网易发布2025年Q4及全年财报,Q4营收275亿元,全年营收1126亿...
原创 3... 395:2!美国踩下金融核弹引信,中国去美元化进入读秒阶段 老铁们,2月9日这天,美国国会山那帮老爷...
国开行2025年发放超1.6万... 新华社北京2月11日电(记者张千千)记者2月11日从国家开发银行获悉,2025年,国开行发挥服务基础...
特斯拉副总裁等多名骨干离职、x... 当地时间2月9日,特斯拉副总裁拉吉·杰加纳坦在LinkedIn上宣布离职,结束了13年的特斯拉生涯。...
重庆A股34家上涨 国际复材、... 2月11日,79家重庆A股上市公司中有34家上涨,2家平收,下跌43家。 同花顺iFinD数据显示,...
央行:继续实施好适度宽松的货币... 中国人民银行2月10日发布《2025年第四季度中国货币政策执行报告》(下称《报告》)。对于下一阶段货...
原创 黄... 金价这轮过山车,表面是市场疯了,实质是体系在抖。黄金不是普通商品,它一旦“失控”,就等于有人在质疑美...