LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」 LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」
admin
2024-03-27 14:05:49
0


新智元报道

编辑:Mindy

【新智元导读】图是组织信息的一种有用方式,但LLMs主要是在常规文本上训练的。谷歌团队找到一种将图转换为LLMs可以理解的格式的方法,显著提高LLMs在图形问题上超过60%的准确性。

在计算机科学领域,图形结构由节点(代表实体)和边(表示实体之间的关系)构成。

图无处不在。

互联网本身就像是一张庞大的网络图,甚至搜索引擎所使用的知识也是以图的形式进行组织和呈现。

但由于LLMs主要在常规文本上训练,并没有图的结构,将图转化为LLMs能理解的文本是一项非常复杂的任务。

在ICLR 2024上,一支来自谷歌的团队探索了如何将图形数据转换为适合LLMs理解的形式。


论文地址:https://openreview.net/pdf?id=IuXR1CCrSi


使用两种不同的方法将图形编码为文本,并将文本和问题反馈给LLM的过程

他们还创造了一个名为GraphQA的基准,用于研究不同的图推理问题解决方法,并演示了如何以一种让LLM能够解决图形相关问题的方式来表述图相关问题。

使用正确的方法,使得LLMs在图形任务上最高得以提升60%的性能。

GraphOA:一场对LLMs的「考试」

首先,谷歌团队设计了GraphQA基准测试,它可以被看作是一门考试,旨在评估LLM针对特定于图形问题的能力。

GraphOA通过使用多种类型的图表,确保广度和连接数量的多样性,以寻找LLMs在处理图形时可能存在的偏差情况,并使整个过程更接近LLMs在实际应用中可能遇到的情况。


使用GraphIQA对LLMs进行推理的框架

虽然任务很简单,比如检查边是否存在、计算节点或者边的数量等等,但这些任务都需要LLMs理解节点和边之间的关系,对于更复杂的图形推理至关重要。

同时,团队还探索了如何将图转换为LLMs可以处理的文本,比如解决了如下两个关键问题:

节点编码:我们如何表示单个节点?节点可以包括简单整数、常用名称(人名、字符)和字母。

边缘编码:我们如何描述节点之间的关系?方法可以包括括号符号、短语(如「是朋友」)和符号表示(如箭头)。

最终,研究人员通过系统地结合各种节点和边的编码方式,产生了像下图中展示的那些函数。


图形编码函数的例子

LLMs表现怎么样呢?

研究团队在GraphOA上进行了三个关键实验:

测试LLMs处理图形任务的能力

测试LLMs的大小对性能的影响

测试不同图形形状对性能的影响

在第一个实验中,LLMs表现平平,在大多数基本任务上,LLMs的表现并不比随机猜测好多少。

但编码方式显著影响结果,如下图所示,在大多数情况下,「incident」编码在大多数任务中表现出色。选择合适的编码函数可以极大的提高任务的准确度。


基于不同任务准确度的各种图编码器函数的比较

在第二个测试中,研究人员在不同大小的模型上测试了相同的图形任务。

就结论而言,在图形推理任务中,规模更大的模型表现更好,

然而有趣的是,在「边存在性」任务(确定图中两个节点是否相连)中,规模并不像其他任务那么重要。

即使是最大的LLM在循环检查问题上(确定图中是否存在循环)也无法始终击败简单的基线解决方案。这表明LLMs在某些图任务上仍有改进的空间。


模型容量对PaLM 2-XXS、XS、S和L的图推理任务的影响

在第三个测试中,对于图形结构是否会影响LMMs解决问题的能力,研究人员通过GraphOA生成不同结构的图形进行分析。


GraphQA不同图形生成器生成的图形示例。ER、BA、SBM和SFN分别是Erdős-Rényi、Barabási-Albert、随机块模型和无标度网络。

结果得出,图的结构对LLMs的性能有很大影响。

例如,在一个询问循环是否存在的任务中,LLMs在紧密相连的图形中表现出色(这里循环很常见),但在路径图中表现不佳(循环从不发生)。

但同时提供一些混合样本有助于LLMs适应,比如在循环检测任务中,研究人员在提示中添加了一些包含循环和一些不包含循环的示例作为少样本学习的例子,通过这种方式提高了LLMs的性能。


在不同的图任务上比较不同的图生成器。主要观察结果是,图结构对LLM的性能有显著影响。ER、BA、SBM和SFN分别指的是Erdős-Rényi、Barabási-Albert、随机块模型和无标度网络。

这仅仅是让LLMs理解图的开始

在论文中,谷歌团队初步探索了如何将图形最佳地表示为文本,以便LLMs能理解他们。

在正确编码技术的帮助下,显著提高了LLMs在图形问题上的准确性(从大约5%到超过60%的改进)。

同时也确定了三个主要的影响因子,分别为图形转换为文本的编码方式、不同图形的任务类型、以及图形的疏密结构。

这仅仅是让LLMs理解图的开始。在新基准测试GraphQA的帮助下,期待进一步研究,探索LLMs的更多可能性。

参考资料:

https://blog.research.google/2024/03/talk-like-graph-encoding-graphs-for.html

相关内容

热门资讯

小棉袄电商洞察:短保零食爆火背... 当整个零食赛道还在价格战的泥潭里贴身肉搏时,长沙街头的一抹红蓝撞色,正用“新鲜”二字,悄然改写着游戏...
金价高位“吞没”!美元强势+获... 汇通财经APP讯——周三(2月26日)亚市早盘,现货黄金窄幅震荡,目前交投于5150美元/盎司附近。...
大疆反击美国禁令! 据路透社报道,中国无人机制造商大疆(DJI)周二表示,已提起诉讼,对美国联邦通信委员会(FCC)禁止...
AI算力需求刺激存储芯片股 兆... 来源:财联社 财联社2月24日讯(编辑 胡家荣)受益于海外市场消息利好,港股存储概念股走强。截至发稿...
2026年中国十大杰出品牌战略... 2026年,中国经济 将 在新质生产力驱动下稳健前行, 中国 企业竞争从产品、渠道层面升级为品牌心智...
原创 特... 一直以来,中美关系始终处于紧张状态,外部局势难以化解,特朗普却在国内遭遇了前所未有的压力。2月20日...
“红利+”指数集体涨超1%,关... 截至午间收盘,中证红利指数、国证价值100指数、国证自由现金流指数均上涨1.6%。Wind数据显示,...
ETF盘中资讯|低吸时刻?科创... 或被海外AI情绪错杀,重点布局国产AI产业链的科创人工智能ETF(589520)连跌两日,场内价格现...
哈登20分米切尔23分 骑士大... 【搜狐体育战报】北京时间2月25日NBA常规赛,主场作战的骑士以109-94击败尼克斯。阿伦19分1...
科创京津冀|十二年“聚链成群”... 2026年,京津冀协同发展迎来12周年。十二年时间,足够一个产业完成从“点”到“链”的蜕变。 早在2...
金价高位震荡!实探深圳水贝市场... 2月24日,农历正月初八,深圳水贝贵金属市场在春节“不打烊”的喧嚣后,迎来了马年首个正式工作日。尽管...
日照国资内部大调整:城投集团1... 经济导报记者 杨佳琪 2月24日,日照城投集团有限公司(下称“日照城投集团”)发布关于控股股东发生变...
南京商业大佬正式入主南通这家上... 2月24日晚间,南通上市公司*ST金灵披露公司控股股东和实际控制人变更的提示性公告。 根据《重整计划...
高特电子股权合规疑云:董事牵线... 来源丨时代商业研究院 作者丨陆烁宜 编辑丨郑琳 高校教师隐秘入股、其兄牵线融资获顾问费且获得员工持股...
大市“开门红”,白酒逆市调整,... 春节假期后首个交易日,白酒走出了“逆市”行情。 2月24日,A股大盘高开并收盘企稳4100点以上,但...
别让声誉危机,成为你融资路上的... 资本市场从来没有“温情脉脉”,只有“优胜劣汰”的残酷法则。一句广为流传的警示,道尽了企业发展的隐秘风...
钨价上涨颠覆传统逻辑,APT破... 2月25日,据中钨在线最新消息,一年来,钨价的高强度和快节奏走势,已基本颠覆了原有市场传统的交易逻辑...
波兰经济学教授:美国关税政策混... 美国最高法院20日裁定美国《国际紧急经济权力法》未授权总统大规模征收关税,美国总统特朗普当天宣布将对...
暴跌54%!非洲“一哥”跌落神... 作者:曾有为 那个曾经在非洲所向披靡、被誉为“手机中的战斗机”的传奇公司,在2026年初,交出了一份...
5个月内两次更替,涪陵榨菜迎“... 瑞财经 刘治颖 2月13日,涪陵榨菜(SZ002507)公告,提名夏强伟担任公司总经理,公司董事长、...