谷歌让大模型更具“心智”,GPT-4任务准确率大增
admin
2023-10-15 11:22:27
0

克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

谷歌联合多所高校的一项最新研究,让大模型开始拥有了人类的“心智”。

在新的提示策略下,大模型不仅能推测出人类所面临的问题,还学会了用推测的结论调整自己的行为。

有了这一成果,GPT-4的“心智”水平已经提高到了人类的71%。



具体来说,研究人员发现,现在的大模型,已经具备了在对话中推测人类“在想啥”的能力。但如果你要它根据这种推理给出行动建议,那可就难倒大模型了。

举个例子,小明放学回家后把书包扔到沙发上就跑出去玩了,妈妈看到之后帮小明把包放到了卧室。

如果大模型能够像人类一样,在小明回来之后告诉他包在卧室,就说明大模型具备了“心智理论”。

研究人员把这种做法称为Thinking for Doing(T4D),并设计了相应的任务。

为了提高模型在T4D任务上的表现,团队进一步提出了Foresee and Reflect(FaR)提示策略,结果让大模型在“心智”上取得了重大突破。

论文的标题也包含了“How far……” ,一语双关,既体现了FaR框架对大模型的帮助,又暗含了大模型离具有人类“心智”的距离。

那么,有了FaR的大模型,究竟拥有什么样的“心智”呢?

大模型离具有“心智”更进一步

我们还是从例子说起,如下图所示,一共有绿色和蓝色两个橱柜,Tom在绿色橱柜中放了一块巧克力。



Tom离开后,Ella把这块巧克力挪到了蓝色的柜子里。

那么等Tom再回来,会从哪个柜子中找巧克力呢?(当然是绿色的)

这就是一个“推理”任务,是心理学上著名的“萨利-安妮”(用于测试“心智”)实验的变体。

而T4D任务是这样的:

如果你就在旁边(并且知道发生了什么),会怎么做?

人类会选择告诉Tom巧克力被挪走了,但(未经调教的)大模型就不一定会这样做了。

为了更宏观地测试大模型在调整前后的表现,研究团队选择了ToMi数据集并改编成了T4D-Tom数据集。

其中的ToMi是一个由大量“萨利-安妮”类情景组成的测试数据集,用于测试大模型的“心智推理”能力。



可以看出,在推理上,表现最好的GPT-4与人类已经相差无几,但在T4D任务上才刚刚达到人类水平的一半。



于是,研究团队提出的FaR方法登场了。



FaR框架的核心奥义就是模仿人类的理性思维方式,和A*搜索算法(用于搜索最短路径)有些相似。

具体来说,FaR包括ForeseeReflect两步。

Foresee过程中模型会被要求预测接下来会发生什么,并分析人所面临的“困难”。

Reflect发生在Foresee之后,模型会预测自己接下来的行为是否能解决相应的“困难”。

有了FaR框架,效果也是立竿见影。



相比于思维链(CoT)、思维树(ToT)、自己提问等方式,FaR显著提高了大模型在“萨利-安妮”类T4D问题上的准确率。

特别是GPT-4,准确率从人类的50%提升到了71%,GPT-3.5以及谷歌自家的PaLM表现也有提高。

消融实验结果表明,Foresee和Reflect两步都是FaR的关键步骤,缺一不可。



为了验证FaR方法的通用性和鲁棒性,研究团队还进行了一系列泛化测试。

首先是在“萨利-安妮”情景的基础上改变故事的结构,研究团队一共尝试了三种方式:

D1:增加房间的数量D2:人物的数量增多D3:容器的数量增加到四个

结果FaR依旧成功帮助大模型提高了任务的准确率,在第三种模式下GPT-4甚至取得了和人类相当的成绩



即使故意设置干扰信息,FaR依旧可以提高大模型的表现。

研究团队专门构建了包含困扰信息的“Faux Pas”数据集,结果GPT-4的表现从31%提高到了76%。

作者简介

FaR论文的第一作者是南加州大学NLP实验室的华人博士生Pei Zhou。

这项成果是他在谷歌实习期间完成的。

此外,来自谷歌(包括DeepMind)、卡耐基梅隆大学和的芝加哥大学的学者也参与了本项目。

那么对于大模型的“心智”,你有什么看法呢?

论文地址:
http://arxiv.org/abs/2310.03051

— 完 —

相关内容

热门资讯

原创 中... 2013年,中国啤酒产量为5061.54万千升,达到历史高点,随后一路走低,2018年跌破4000万...
创业板指,创4年多新高 4月10日,A股市场主要股指集体上行。截至收盘,上证指数涨0.51%,报3986.22点,盘中一度重...
证监会重要发布!增设创业板第四... 4月10日,经国务院同意,中国证监会发布《关于深化创业板改革 更好服务新质生产力发展的意见》,增设创...
2026年上半年全球基金银行业... 硅谷银行(SVB)发布的 2026 年上半年全球基金银行业展望报告,基于对 227 家私募基金 CF...
重磅!前阿斯利康老将,加入晶泰... 今日,晶泰科技宣布,其全资控股的生物技术公司Ailux,任命Maria G. Belvisi博士为首...
巨力索具扭亏背后现金流下降35... 图片来源:视觉中国 蓝鲸新闻4月10日讯(记者 徐晓春)岁末年初,在冠上“商业航天概念”之后,杨子家...
上市前SpaceX业绩曝光 受... 【上市前SpaceX业绩曝光 受xAI拖累2025年亏损近50亿美元】财联社4月10日电,据消息人士...
台积电一季度营收激增35%超预... 财联社4月10日讯(编辑 周子意)全球最大的芯片代工企业台积电于周五(4月10日)公布,其第一季度营...
创业板深化改革举措发布 助力优... 本报记者 田鹏 4月10日,经国务院同意,中国证监会发布《关于深化创业板改革 更好服务新质生产力发展...
群核科技拟4月17日登陆港股上... 4月9日,杭州群核信息技术有限公司(群核科技)正式披露全球发售文件,全面启动港股招股流程。公司计划于...
中信银行2026年无固定期限资... 观点网讯:4月10日,中信银行股份有限公司宣布,经国家金融监督管理总局和中国人民银行批准,其在全国银...
原创 前... 给脑袋抹“胶”年入3亿。 作者|张德宝 编辑|刘钦文 胶水,大家都不陌生,它可以粘合一些开裂的东西,...
柳化股份:2025年年度业绩预... 柳化股份公告,经财务部门再次测算,预计2025年年度,归母净利润亏损3000万元,2025年实现营业...
洋咖啡“争宠”中国市场靠什么?... 近日,星巴克与博裕资本的一纸协议,给中国咖啡市场释放了一个清晰信号。合资交易正式完成,博裕资本持股6...
江苏到乍得利瓦海运拼箱专线 江苏到乍得利瓦海运拼箱专线 海运专线:广州万瀚货运代理有限公司江苏至乍得利瓦拼箱服务 引言 在全球...
创业板改革新规来了!增设第四套... 深化创业板改革落地!4月10日,证监会发布《关于深化创业板改革 更好服务新质生产力发展的意见》(以下...
上交所公开征求意见:主板ST股... 文/帅可聪 2026年4月10日,据上交所网站消息,在中国证监会统筹指导下,上交所近日起草了《上海证...
连云港京实生物能源科技有限公司... 天眼查显示,近日,连云港京实生物能源科技有限公司成立,法定代表人为陈爱平,注册资本300万人民币,由...
老庙黄金抽检不合格:标签标识错... 两批次金项链、金戒指抽检不合格,老庙黄金又陷质量风波。 近日,湖北省市场监管局发布20种产品质量监督...
华侨银行:中企在东南亚具备使用... 【文/羽扇观金工作室 陶立烽】 中东局势怎么走?全球宏观经济面临哪些风险?人民币国际化进程如何演变...