文字序顺不响影GPT-4阅读理解,别的大模型都不行 文字序顺不响影GPT-4阅读理解,别的大模型都不行
admin
2023-12-06 01:21:07
0

丰色 发自 凹非寺
量子位 | 公众号QbitAI

研表究明,汉字序顺并不定一影阅响读(对于英文来说,则是每一个单词中的字母顺序)。

现在,日本东京大学的一项实验发现,这个“定理”居然也适合GPT-4。

比如面对这样一段“鬼画符”,几乎里面每一个单词的每一个字母都被打乱

oJn amRh wno het 2023 Meatsrs ermtnoTuna no duySan taatgsuAu ntaaNloi Gflo bClu, gnelcinhi ish ifsrt nereg ecatkjnad ncedos raecer jroam。

但GPT-4居然完美地恢复出了原始句子(红框部分):



原来是一个叫做Jon Rahm的人赢得了2023年美国大师赛(高尔夫)的故事。

并且,如果你直接就这段乱码对GPT-4进行提问,它也能先理解再给出正确答案,一点儿也不影响阅读:



对此,研究人员感到非常吃惊

按理说乱码单词会对模型的tokenization处理造成严重干扰,GPT-4居然和人类一样不受影响,这有点违反直觉啊。



值得一提的是,这项实验也测试了其他大模型,但它们全都挑战失败——有且仅有GPT-4成功。

具体怎么说?

文字顺序不影响GPT-4阅读

为了测试大模型抗文字错乱干扰的能力,作者构建了一个专门的测试基准:Scrambled Bench。

它共包含两类任务

一是加扰句子恢复(ScrRec),即测试大模型恢复乱序句子的能力。

它的量化指标包括一个叫做恢复率(RR)的东西,可以简单理解为大模型恢复单词的比例。

二是加扰问答(ScrQA),测量大模型在上下文材料中的单词被打乱时正确理解并回答问题的能力。

由于每个模型本身的能力并不相同,我们不好直接用准确性来评估这一项任务,因此作者在此采用了一个叫做相对性能增益(RPG)的量化指标。

具体测试素材则选自三个数据库

一个是RealtimeQA,它每周公布当前LLM不太可能知道的最新消息;

第二个是DREAM(Sun et al.,2019),一个基于对话的多项选择阅读综合数据集;

最后是AQuARAT,一个需要多步推理才能解决的数学问题数据集。

对于每个数据集,作者从中挑出题目,并进行不同程度和类型的干扰,包括:
1、随机加扰(RS),即对每一个句子,随机选择一定比例(20%、50%、100%)的单词,对这些单词中的所有字母进行打乱(数字不变)。

2、保持每个单词的第一个字母不变,剩下的随意排列(KF)。

3、保持每个单词的首字母和最后一个字母不变,剩下的随机打乱(KFL)。

参与测试的模型有很多,文章正文主要报告了以下几个:

text-davinci-003、GPT-3.5-turbo、GPT-4、Falcon-180b和Llama-2-70b。

首先来看不同干扰类型的影响。

如下图所示:

在KFL设置中(即首尾字母不变),不管是加扰句子恢复还是加扰问答任务,模型之间的性能差距都不大。

然而,随着干扰难度越来越高(变为KF和RS后),模型的性能都迎来显著下降——除了GPT-4。

具体而言,在加扰句子恢复(ScrRec)任务中,GPT-4的恢复率始终高于95%,在加扰问答(ScrQA)任务中,GPT-4的相对准确性也都始终维在85%-90%左右。

相比之下,其他模型有的都掉到了不足20%。



其次是不同加扰率的影响。

如下图所示,可以看到,在加扰句子恢复(ScrRec)任务中,随着一个句子中被干扰的单词数量越来越多,直至100%之后,只有GPT-3.5-turbo和GPT-4的性能没有显著变化,当然,GPT-4还是比GPT-3.5优先了很大一截。



而在加扰问答(ScrQA)任务中,随着句子中被打乱的单词数量越来越多,所有模型性能都出现了都显著下降,且差距越来越大。

但在其中,GPT-4还能以87.8%的成绩保持遥遥领先,并且下降幅度也是最轻微的。

所以简单总结来说就是:

大多数模型都可以处理一定比例的干扰文本,但到极端程度时(比如单词全部打乱),就只有GPT-4表现最好,只有GPT-4面对完全混乱的词序,几乎不怎么被影响。

GPT-4还擅长分词

在文章最后,作者指出:

除了打乱单词字母顺序之外,还可以研究插入字母、替换字母等情况的影响。

唯一的问题是,由于GPT-4为闭源,大家也不好调查为什么GPT-4可以不被词序影响。

有网友发现,除了本文所证明的情况,GPT-4也非常擅长将下面这一段完全连起来的英文:

UNDERNEATHTHEGAZEOFORIONSBELTWHERETHESEAOFTRA
NQUILITYMEETSTHEEDGEOFTWILIGHTLIESAHIDDENTROV
EOFWISDOMFORGOTTENBYMANYCOVETEDBYTHOSEINTHEKN
OWITHOLDSTHEKEYSTOUNTOLDPOWER

正确分隔开来:

Underneath the gaze of Orion’s belt, where the Sea of Tranquility meets the edge of twilight, lies a hidden trove of wisdom, forgotten by many, coveted by those in the know. It holds the keys to untold power.

按理来说,这种分词操作是一件很麻烦的事儿,通常需要动态编程等操作。

GPT-4表现出来的能力再次让这位网友感到惊讶。

他还把这段内容放进了OpenA官方的tokenizer工具,发现GPT-4看到的token其实是这样的:

UNDER NE AT HT HE GA Z EOF OR ION SB EL TW HER ET HE SEA OF TRA

这里面除了“UNDER”、“SEA”和“OF”之外,几乎剩下的所有token都看起来“毫无逻辑”,这更加使人费解了。



对此,大伙是怎么看的呢?

参考链接:
[1]https://arxiv.org/abs/2311.18805
[2]https://news.ycombinator.com/item?id=38506140

相关内容

热门资讯

2025年A股IPO上市首日零... 来源:证券时报e公司 (原标题:2025年A股IPO上市首日零破发!76股单签浮盈过万,最高超36万...
百度确定分拆昆仑芯在港独立上市... 2026年港股第一个交易日,百度集团(BIDU.O,09888.HK,以下简称“百度”)甩出了一个大...
壁仞“开门红” 上市首日最高涨... 张文(右一)港交所敲锣。 1月2日,国产GPU厂商壁仞科技正式登陆港交所,成为港股“国产GPU第一...
视频丨免税店更快上新、游艇更受... 据海关统计,海南自贸港封关运作以来,截至2025年12月31日进口“零关税”货物达4.2亿元;加工增...
智慧医疗AI大模型医学影像诊断... 今天分享的是:智慧医疗AI大模型医学影像诊断智能识别应用方案(162页WORD) 报告共计:160页...
我国2026年起对进口牛肉采取... 来源:新华网 2025年12月31日,商务部发布公告,裁定进口牛肉数量增加,中国国内产业受到严重损害...
壁仞科技:港股开年首股,上市涨... 【1月2日壁仞科技港交所上市,股价大涨市值破千亿】1月2日,国产GPGPU稀缺标的壁仞科技(6082...
原创 1... 1947年8月7日,延安的居民们纷纷放下手中的农活,聚集在枣园,目睹一个难得的场面: 一个身着军装、...
从企业发展看艾多美的非传销轨迹 企业的发展轨迹,是其内在基因与外部行为的综合映射。艾多美自创立以来,始终坚持产品为核心、消费者为导向...
每周股票复盘:郑州银行(002... 截至2025年12月31日收盘,郑州银行(002936)报收于1.93元,较上周的1.95元下跌1....
原创 多... 多田保中将是侵华日军的高级指挥官,他曾担任多个重要职务,参与了许多中国战场上的战斗。曾在常德会战中发...
500ML飞天上线i茅台,消费... 2026年1月1日起,到“i茅台”购买500ml飞天茅台,成为酒圈最关心的话题。在线上热卖的同时,有...
探秘千济方桑黄对子宫癌免疫调节... 探秘千济方桑黄对子宫癌免疫调节的意义 一、桑黄简介 桑黄是一种珍贵的药用真菌,在传统医学中有着悠久的...
长鑫IPO获受理,比走势更该看... 12月31日,长鑫科技科创板IPO申请正式拿到上交所受理通知,要募295亿把钱砸进DRAM存储器的技...
价稳货足,普陀商超全力保障假日... 为保障元旦假期商品稳定供应,普陀各大商超积极备货,保障生活必需品和节令食品种类丰富、供应充足,让市民...
数字人民币正式迈入“计息时代”... 2026年1月1日起,工商银行、中国银行、农业银行、建设银行、交通银行及邮储银行六家国有大行集体实施...
揽金1.98亿元丨安庆一宗住宅... 最新!安庆市宜秀区1宗住宅地块成功出让,合计96.22亩,揽金1.98亿元。 具体内容请往下瞧↓ 1...
圃美多乐活(中国)再添强援,李... 来源:市场资讯 (来源:zhixiao360) 2026 年 1 月 1 日,圃美多乐活(中国)有限...
上海首发各大商圈跨年消费“快报... 1月2日,上海市商务委首次发布各大商圈跨年消费“快报”。 第一八佰伴 本文图片均由受访者提供 跨年...
出炉!2025年全球十大航运新... 2025年全球十大航运新闻 回望2025,许多变化并非骤然降临,而如潮汐一般,表面起落有时,深处的水...