谷歌让大模型更具“心智”,GPT-4任务准确率大增
admin
2023-10-15 11:22:27
0

克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

谷歌联合多所高校的一项最新研究,让大模型开始拥有了人类的“心智”。

在新的提示策略下,大模型不仅能推测出人类所面临的问题,还学会了用推测的结论调整自己的行为。

有了这一成果,GPT-4的“心智”水平已经提高到了人类的71%。



具体来说,研究人员发现,现在的大模型,已经具备了在对话中推测人类“在想啥”的能力。但如果你要它根据这种推理给出行动建议,那可就难倒大模型了。

举个例子,小明放学回家后把书包扔到沙发上就跑出去玩了,妈妈看到之后帮小明把包放到了卧室。

如果大模型能够像人类一样,在小明回来之后告诉他包在卧室,就说明大模型具备了“心智理论”。

研究人员把这种做法称为Thinking for Doing(T4D),并设计了相应的任务。

为了提高模型在T4D任务上的表现,团队进一步提出了Foresee and Reflect(FaR)提示策略,结果让大模型在“心智”上取得了重大突破。

论文的标题也包含了“How far……” ,一语双关,既体现了FaR框架对大模型的帮助,又暗含了大模型离具有人类“心智”的距离。

那么,有了FaR的大模型,究竟拥有什么样的“心智”呢?

大模型离具有“心智”更进一步

我们还是从例子说起,如下图所示,一共有绿色和蓝色两个橱柜,Tom在绿色橱柜中放了一块巧克力。



Tom离开后,Ella把这块巧克力挪到了蓝色的柜子里。

那么等Tom再回来,会从哪个柜子中找巧克力呢?(当然是绿色的)

这就是一个“推理”任务,是心理学上著名的“萨利-安妮”(用于测试“心智”)实验的变体。

而T4D任务是这样的:

如果你就在旁边(并且知道发生了什么),会怎么做?

人类会选择告诉Tom巧克力被挪走了,但(未经调教的)大模型就不一定会这样做了。

为了更宏观地测试大模型在调整前后的表现,研究团队选择了ToMi数据集并改编成了T4D-Tom数据集。

其中的ToMi是一个由大量“萨利-安妮”类情景组成的测试数据集,用于测试大模型的“心智推理”能力。



可以看出,在推理上,表现最好的GPT-4与人类已经相差无几,但在T4D任务上才刚刚达到人类水平的一半。



于是,研究团队提出的FaR方法登场了。



FaR框架的核心奥义就是模仿人类的理性思维方式,和A*搜索算法(用于搜索最短路径)有些相似。

具体来说,FaR包括ForeseeReflect两步。

Foresee过程中模型会被要求预测接下来会发生什么,并分析人所面临的“困难”。

Reflect发生在Foresee之后,模型会预测自己接下来的行为是否能解决相应的“困难”。

有了FaR框架,效果也是立竿见影。



相比于思维链(CoT)、思维树(ToT)、自己提问等方式,FaR显著提高了大模型在“萨利-安妮”类T4D问题上的准确率。

特别是GPT-4,准确率从人类的50%提升到了71%,GPT-3.5以及谷歌自家的PaLM表现也有提高。

消融实验结果表明,Foresee和Reflect两步都是FaR的关键步骤,缺一不可。



为了验证FaR方法的通用性和鲁棒性,研究团队还进行了一系列泛化测试。

首先是在“萨利-安妮”情景的基础上改变故事的结构,研究团队一共尝试了三种方式:

D1:增加房间的数量D2:人物的数量增多D3:容器的数量增加到四个

结果FaR依旧成功帮助大模型提高了任务的准确率,在第三种模式下GPT-4甚至取得了和人类相当的成绩



即使故意设置干扰信息,FaR依旧可以提高大模型的表现。

研究团队专门构建了包含困扰信息的“Faux Pas”数据集,结果GPT-4的表现从31%提高到了76%。

作者简介

FaR论文的第一作者是南加州大学NLP实验室的华人博士生Pei Zhou。

这项成果是他在谷歌实习期间完成的。

此外,来自谷歌(包括DeepMind)、卡耐基梅隆大学和的芝加哥大学的学者也参与了本项目。

那么对于大模型的“心智”,你有什么看法呢?

论文地址:
http://arxiv.org/abs/2310.03051

— 完 —

相关内容

热门资讯

2025新网商峰会启幕,共话新... 摘要:风正潮平,千帆竞渡。 2025年,中国消费市场经历新一轮激荡和洗牌。 宏观上看,消费正在成为拉...
科创板系列指数集体收涨,关注科... 截至收盘,科创成长指数上涨0.8%,科创100指数上涨0.5%,科创板50指数、科创综指均上涨0.4...
精锻科技:副总经理赵红军、董义... 每经AI快讯,精锻科技(SZ 300258,收盘价:13.18元)12月22日晚间发布公告称,江苏太...
2658.3亿!再创历史新高 今天(12月23日) 苏州海关召开新闻发布会 会场传来最新好消息 ▼ 今年1—11月,苏州市外贸进...
碳酸锂主力合约突破12万元,A... 12月23日,上证指数在关键压力位3920点附近遇阻回落,受到贵金属、碳酸锂期货大涨的刺激,黄金、锂...
原创 印... 最近,印度拒收俄罗斯原油的决定引发了国际社会的广泛关注。由于美国加大制裁力度,根据路透社披露,11月...
再创新高!金饰克价首破1400... 国际金价延续连日来的涨势。受此带动,以人民币计价的黄金价格再创新高。12月23日,有品牌足金饰品报价...
原创 全... 全球首富的财富密码:一个造火箭,一个挖石油,一个卖水。 2025年《福布斯》全球富豪榜一出,很多人只...
武汉年底密集土拍“补作业”,伟... 武汉楼市 董红艳/摄 本报记者 董红艳 北京报道 进入12月,武汉土拍市场的热度随着供地节奏的加快持...
快讯 | 上周美股IPO上市:... 12月15日-21日,美股市场迎来9家新上市公司,合计募资15.6亿美元,上市活动呈现明显SPAC主...
原创 最... 2021年秋天的恒大早已摇摇欲坠。在内部会议上,许家印拍着桌子喊出“保交楼”三个字——这个口号稳住了...
原创 万... 近日,万宁在官网宣布,即将关闭中国大陆线下门店和线上商城。其中,线下门店的最后营业日为2026年1月...
中国结算公布2026年部分节假... 12月22日,中国结算发布通知,根据中国证监会关于2026年部分节假日放假和休市安排的相关通知精神和...
快讯|SEC批准纳斯达克150... 12月18日,美国SEC发布SR-NASDAQ-2025-069文件,对纳斯达克此前提交的上市新规提...
港股通消费指数升级了哪些方面?... 如果你关注港股里的消费股——比如潮玩、茶饮、服装珠宝、旅游零售等领域的公司——那么你可能听说过“中证...
港股打新亏钱!4只新股集体破发... 年底港股新股市场出现罕见一幕,今日港股四只新股上市首日集体破发。 截至收盘,明基医院(02581.H...
金价再创历史新高 2026年还... 现货黄金价格再度历史新高。 截至12月23日上午12时,伦敦金价格最高达4497.75美元/盎司,创...
再创新高!现货黄金价格涨破千元... 转自:北京日报客户端 12月23日,现货黄金价格历史性地突破千元大关。开盘报4444.98美元/盎司...
一单项目3.9亿承销保荐费创纪... 财联社12月23日讯(记者 王晨)2025年A股IPO市场在数量收缩中迎来质量升级,一场围绕承销保荐...
牛市早报|一次性信用修复政策落... 【市场数据】 至12月22日收盘,上证综指涨0.69%,报3917.36点;科创50指数涨2.04%...