谷歌让大模型更具“心智”,GPT-4任务准确率大增
admin
2023-10-15 11:22:27
0

克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

谷歌联合多所高校的一项最新研究,让大模型开始拥有了人类的“心智”。

在新的提示策略下,大模型不仅能推测出人类所面临的问题,还学会了用推测的结论调整自己的行为。

有了这一成果,GPT-4的“心智”水平已经提高到了人类的71%。



具体来说,研究人员发现,现在的大模型,已经具备了在对话中推测人类“在想啥”的能力。但如果你要它根据这种推理给出行动建议,那可就难倒大模型了。

举个例子,小明放学回家后把书包扔到沙发上就跑出去玩了,妈妈看到之后帮小明把包放到了卧室。

如果大模型能够像人类一样,在小明回来之后告诉他包在卧室,就说明大模型具备了“心智理论”。

研究人员把这种做法称为Thinking for Doing(T4D),并设计了相应的任务。

为了提高模型在T4D任务上的表现,团队进一步提出了Foresee and Reflect(FaR)提示策略,结果让大模型在“心智”上取得了重大突破。

论文的标题也包含了“How far……” ,一语双关,既体现了FaR框架对大模型的帮助,又暗含了大模型离具有人类“心智”的距离。

那么,有了FaR的大模型,究竟拥有什么样的“心智”呢?

大模型离具有“心智”更进一步

我们还是从例子说起,如下图所示,一共有绿色和蓝色两个橱柜,Tom在绿色橱柜中放了一块巧克力。



Tom离开后,Ella把这块巧克力挪到了蓝色的柜子里。

那么等Tom再回来,会从哪个柜子中找巧克力呢?(当然是绿色的)

这就是一个“推理”任务,是心理学上著名的“萨利-安妮”(用于测试“心智”)实验的变体。

而T4D任务是这样的:

如果你就在旁边(并且知道发生了什么),会怎么做?

人类会选择告诉Tom巧克力被挪走了,但(未经调教的)大模型就不一定会这样做了。

为了更宏观地测试大模型在调整前后的表现,研究团队选择了ToMi数据集并改编成了T4D-Tom数据集。

其中的ToMi是一个由大量“萨利-安妮”类情景组成的测试数据集,用于测试大模型的“心智推理”能力。



可以看出,在推理上,表现最好的GPT-4与人类已经相差无几,但在T4D任务上才刚刚达到人类水平的一半。



于是,研究团队提出的FaR方法登场了。



FaR框架的核心奥义就是模仿人类的理性思维方式,和A*搜索算法(用于搜索最短路径)有些相似。

具体来说,FaR包括ForeseeReflect两步。

Foresee过程中模型会被要求预测接下来会发生什么,并分析人所面临的“困难”。

Reflect发生在Foresee之后,模型会预测自己接下来的行为是否能解决相应的“困难”。

有了FaR框架,效果也是立竿见影。



相比于思维链(CoT)、思维树(ToT)、自己提问等方式,FaR显著提高了大模型在“萨利-安妮”类T4D问题上的准确率。

特别是GPT-4,准确率从人类的50%提升到了71%,GPT-3.5以及谷歌自家的PaLM表现也有提高。

消融实验结果表明,Foresee和Reflect两步都是FaR的关键步骤,缺一不可。



为了验证FaR方法的通用性和鲁棒性,研究团队还进行了一系列泛化测试。

首先是在“萨利-安妮”情景的基础上改变故事的结构,研究团队一共尝试了三种方式:

D1:增加房间的数量D2:人物的数量增多D3:容器的数量增加到四个

结果FaR依旧成功帮助大模型提高了任务的准确率,在第三种模式下GPT-4甚至取得了和人类相当的成绩



即使故意设置干扰信息,FaR依旧可以提高大模型的表现。

研究团队专门构建了包含困扰信息的“Faux Pas”数据集,结果GPT-4的表现从31%提高到了76%。

作者简介

FaR论文的第一作者是南加州大学NLP实验室的华人博士生Pei Zhou。

这项成果是他在谷歌实习期间完成的。

此外,来自谷歌(包括DeepMind)、卡耐基梅隆大学和的芝加哥大学的学者也参与了本项目。

那么对于大模型的“心智”,你有什么看法呢?

论文地址:
http://arxiv.org/abs/2310.03051

— 完 —

相关内容

热门资讯

京东美团“暗战”具身智能,战火... 在科技赛道的激烈角逐中,具身智能正成为巨头们争夺的新焦点。王兴之后,刘强东也在具身智能领域强势出击。...
“未来已来”指数涨跌不一,关注... 截至收盘,国证机器人产业指数上涨2.1%,中证新能源指数上涨1.5%,中证人工智能主题指数下跌0.0...
“未来能源”指数上涨,关注新能... 截至收盘,中证上海环交所碳中和指数上涨1.9%,中证光伏产业指数上涨1.6%,中证新能源指数上涨1....
四川银行控股长城华西银行 助力... 长城华西银行实控权将花落四川银行。6月26日,中国长城资产公司及其全资子公司在北京产权交易所挂牌转让...
汇添富红利智选混合发起式A:2... AI基金汇添富红利智选混合发起式A(021515)披露2025年二季报,第二季度基金利润67.55万...
交通运输部:将谋划实施一批交通... 【大河财立方消息】7月21日,国务院新闻办公室举行“高质量完成‘十四五’规划”系列主题新闻发布会,介...
站在减肥药风口上的诺泰生物是怎... 界面新闻记者 | 黄华 界面新闻编辑 | 谢欣 7月19日,诺泰生物公告称,公司于7月18日收到...
原创 7... 周一,沪深A股主要的大盘指数分化明显,上证指数走强,创业板指数次之,科创50指数较弱。盘面上看,多数...
鸿星科技闯关沪主板,2023年... 作为苹果的重要代工厂,富士康在全球电子产业链中占据重要地位,一些给富士康供货的公司也陆续上市。汇成真...
小心,英伟达没安好“芯”! 黄仁勋在北京穿唐装,中文演讲,以及英伟达获得美国政府许可,可以重新向中国销售其专为中国设计的AI芯片...
专访清华大学靳卫萍:稳定币的关... 编者按:随着美国总统特朗普签署《天才法案》(Genius Act),中国香港的《稳定币条例》即将于8...
贺博生:7.21黄金原油晚间行... 做投资就像打一场战役,一定要在战役开始前定好策略,不仅要在战场上有优势的时候要怎么扩大优势,趁胜追击...
【2025链博会】前海粤十史伟... 【环球网科技报道 记者 秦耳】谈及食品消费市场近几年的变化,业内人大多会提到“保质期革命”。如果仔细...
董事会大换血,新实控人13亿元... 主营谷朊粉、酒精的上市公司包头华资实业股份有限公司(简称“华资实业”),迎来新“主人”。日前,其董事...
【财经早晚报】特朗普开始审查马... 今天值得关注的国内外新闻有: 1. 中国网民规模已达11.23亿人,中国互联网普及率达79.7% 2...
太平改革红利精选:2025年第... AI基金太平改革红利精选(005270)披露2025年二季报,第二季度基金利润334.79万元,加权...
博时基金赵宪成:资金面与基本面... 港股市场正在受到越来越多投资者的关注。在博时基金境外投资部基金经理赵宪成看来,今年上半年港股市场表现...
小红书聚光平台广告竟价原理分享... 作为小红书官方的一站式广告投放平台,“聚光”是广告主实现“产品种草、商品销量、客资收集、直播推广、抢...
原创 除... 2023年7月,咱们国家商务部,轻描淡写地发了个公告,说要对两种叫“镓”和“锗”的金属搞个出口管制。...
富达基金董事长变更;张坤最新持... 天赐良基日报第691期 一、今日基金新闻速览 1、富达基金董事长变更 近日,富达基金公告称,XIA...