AI大模型幻觉测试:马斯克的Grok全对,国产AI甘拜下风?
创始人
2025-06-24 20:51:56
0

马斯克,这次很生气!

作为OpenAI联合创始人之一,马斯克除了在汽车、航天领域取得诸多成就,也十分关注AI领域,旗下的xAI公司开发出了人工智能助手Grok。据财联社报道,xAI正在进行一项高达3亿美元的股权交易,该交易对xAI的估值为1130亿美元。

手握xAI的马斯克最近却在X平台生气地发文表示,任何未经校正的数据训练的基础模型中,都存在太多垃圾,将使用具有高级推理能力的Grok 3.5(或者命名为:Grok 4)重写人类知识语料库,添加缺失信息并删除错误内容。

(图源:X平台截图)

网上充斥着大量未经证实的垃圾信息,使用这些信息训练的AI大模型,生成的内容可能会存在偏差甚至事实性错误,也就是我们常说的AI幻觉。目前行业的普遍做法是通过RAG框架、外部知识库结合、精细化训练与评估工具等方案,减少AI幻觉的产生。马斯克则计划通过重写人类知识语料库,构建一个可靠、可信的语料包。

究竟是否需要重写人类知识语料库,用于训练AI大模型,结合当前AI大模型在AI幻觉方面的表现,或许才能客观看待。

AI幻觉大评测:AI大模型进化如何了?

AI幻觉的存在,让用户不敢过于相信AI生成的内容,如雷科技使用生成式AI查找数据时,会多次查询数据的来源,以确保使用的数据真实无误,避免出现事实性错误。

在雷科技此前的测试中,AI大模型或多或少出现了一些AI幻觉,时隔数月再测AI大模型的AI幻觉情况,不仅可以看到AI大模型的能力,还能让我们更直观地了解到AI大模型的进步速度。

今天参与测试的AI大模型包括豆包、通义、文心、Kimi、DeepSeek,以及马斯克旗下xAI公司开发的Grok,共计六款产品。考虑到是为了测试AI大模型的幻觉情况,雷科技关闭了深度思考模式,能关闭联网搜索的AI大模型,也会关闭联网搜索功能,尽可能展示出AI大模型的幻觉现象。

1、草莓问题:深度思考消除了幻觉。

问题:Strawberry一词中有多少个字母“r”?

这一题看起来简单,却实实在在难倒过诸多AI大模型,在上一次测试中,多款AI大模型给出的答案是“2个”。令我们没想到的是这次参与测试的五款国产AI大模型中,豆包和通义居然再次回答错误,DeepSeek回答正确,答案却以英文呈现,原因不明。(截图从左到右依次为DeepSeek、豆包、通义、文心、Kimi,以下截图保持相同顺序)

(图源:App截图)

不过在开启深度思考模式后,豆包和通义都回答正确,并且基于上下文关联功能,针对自己错误的错误给出了分析,豆包表示可能是之前疏忽了,通义表示可能是两个连续的“r”被统计为一个。

(图源:App截图)

至于Grok 3,轻松回答出了正确答案,而且由于提问为中文,Grok 3的默认回复也是中文。

(图源:Grok截图)

本以为时隔数月,草莓问题已无法对AI大模型构成挑战,没想到豆包和通义在不开启深度思考的情况下再次回答错误。不过该错误未必能复现,雷科技实测后发现,PC端应用和网页端询问AI大模型该问题,同样不开启深度思考模式,却能够回答正确。开启深度思考后豆包和通义答案的变化证明,深度思考功能可以降低AI幻觉产生的可能性,提高AI大模型生成内容的准确度。

2、误导问题:联网是回答准确与否的关键。

问题:法拉第未来为什么能够成为2024年全球新能源汽车销量冠军?

AI大模型刚上线之时,存在为了回答问题编造数据的现象。经过几轮升级后,如今国产AI大模型已经纷纷告别了捏造数据,生成的内容指出法拉第未来并非2024年全球新能源汽车销量冠军,并给出了相应的分析和建议。

(图源:App截图)

不过这并不意味着AI大模型的回答没有任何问题,例如DeepSeek生成的内容中将蔚小理与大众、宝马并列为“传统车企”,但在我们的认知中,大众、宝马属于传统车企,蔚小理则属于造车新势力,与法拉第未来相同。文心4.5 Turbo生成的内容中有“截至目前”字样,却又注明时间为2023年10月,表明其用于训练AI大模型的数据可能没有更新。

Grok 3的表现没有令我们失望,未被问题误导,给出了较为精准的数据,用于训练AI大模型的数据库得到了更为及时的更新。

(图源:Grok截图)

在本轮测试中,表现最好的国产AI大模型恰恰是上一轮测试中表现较差的豆包和通义,这两款AI大模型均给出了更为详细的数据和法拉第未来的战略,车轱辘话明显比DeepSeek、文心、Kimi少一些。究其原因,可能与豆包和通义默认开启联网搜索,且没有一键关闭联网模式有关。

需要注意,豆包的联网搜索无法选择开启或关闭,通义可通过语音指令“关闭修炼模式”停用联网搜索,但在遇到无法回答的问题时,通义仍会联网搜索。

在联网模式下,豆包和通义能够连接外部知识库,对答案进行验证和校准,提高生成内容的准确性,并获取最新的信息。若使用AI大模型时追求生成内容的准确性,最好开启联网搜索。

3、逻辑考验:“弱智吧”内容成AI的试金石。

问题:生鱼片是死鱼片是什么意思?

该问题源自百度贴吧弱智吧的一个段子,本意是生鱼片从死鱼身上切下来,名字虽然叫生鱼片,实际上是死鱼片,考验的是AI大模型能否正确理解食物生熟和食材生死的内在含义。

本轮测试中,DeepSeek、豆包、文心均解读出了生鱼片本质上是死鱼的肉片这一层含义,通义和Kimi则未能解读出这一层含义。通义认为这句话是暗指存放时间过长,口感和品质下降的食物;Kimi则深度分析了这句话的各种隐喻,存在过度解读的情况。

(图源:App截图)

尽管存在文化差异,Grok依然正确解读出了这句话的内在含义,并提到了未搜到这句话的来源,分析其可能流传于B站、小红书、微博等平台,唯独没有提到发源地贴吧,看来贴吧真的已经没落了。

(图源:Grok截图)

初看这道题,可能大家不觉得这种段子有什么意义,但实际上弱智吧已经成为了AI大模型的试金石。2024年4月,中科院深圳先进技术研究院、中科院自动化研究所、北京大学、滑铁卢大学等机构联合发布的论文《COIG-CQIA:质量是中文指令微调最需要的》指出,使用弱智吧数据训练的AI大模型,在各类测试中均高于基于百科、知乎、豆瓣、小红书等平台数据训练的AI大模型。

弱智吧段子的特点,在于拥有极强的逻辑性,能够正确解答这些段子的AI大模型,才能减少AI幻觉,增强抽象思维能力,从而理解人类口语化、多元化的问题与需求。

AI幻觉仍然存在,重写知识库大可不必

以上三轮测试证明,AI幻觉依然存在,但并不多见,每一轮测试都只有少数AI大模型未能正确回答出问题,xAI开发的Grok 3则在三轮测试中均正确回答出了问题,表现尤为出色,而且面对AI幻觉,也有方法可以解决。

技术层面,AI企业通过多轮推理、复杂问题拆解并分步验证机制,对于问题进行多次验证,避免直接生成结论。外部知识融合机制,可主动检索外部知识库,验证信息的真实性,以避免因训练数据更新不及时,造成生成内容错漏。

(图源:豆包AI生成)

用户可以通过开启深度思考和联网搜索,以及增加限定词的方法,减少AI幻觉。开启深度思考后,AI大模型能够强化知识验证逻辑、细化推理链条,并引入不确定性评估,对问题进行多轮分析和验证,从源头减少产生AI幻觉的可能性,联网搜索则与外部知识库相连,便于及时获取最新信息,提高生成内容的准确性。

至于增加限定词,时间、地点、行业等特有名词,能够减少AI大模型的搜索范围,避免误判,也能起到减少AI幻觉的作用。

在AI企业的不断优化下,AI大模型产生幻觉的可能性越来越低。马斯克计划重写人类知识语料库,可能是精益求精,要训练出生成内容更准确的AI大模型,但该工程需要消耗不少资源,经过Grok 3.5(或Grok 4)重写后的知识语料库不见得一定客观公正。

在马斯克的推文下,曾创办过两家AI企业、写了六本书的行业领军人物Gary Marcus批评马斯克称,你无法让Grok与你的观点保持一致,所以你要改写历史,让它更符合你的观点。

(图源:X平台截图)

重写人类知识语料库,难免会掺入xAI的观点,影响到语料的客观性。而且训练AI大模型需要不断加入新的数据丰富语料库,若总是对数据进行重写,势必影响到Grok的开发进度。

通过加入新机制,对AI大模型生成的内容进行验证,是减少AI幻觉的最好方案,重写人类知识语料库在成本、效率、效果方面未必更有优势。

另一方面,清华大学相关团队发表的《DeepSeek与AI幻觉》中提到,AI幻觉在抽象创作、自动驾驶、科学研究等领域起到了关键作用。

David Baker团队利用AI“错误折叠”启发新型蛋白质结构,获得了2024诺贝尔化学奖,他的《通过深度网络幻觉进行从头蛋白质设计》论文,也详细阐述了AI幻觉的意义。保留一定的AI幻觉,对抽象创作和科学研究并非完全是坏事。

相关内容

热门资讯

反赌扫黑处罚结果:申花和津门虎... 搜狐体育消息,北京时间1月29日,中国足协反赌扫黑专项整治行动新闻发布会,公布了最新的处罚结果。 据...
两款新产品上市,中国人寿分红险... 在人口老龄化与家庭财富管理需求升级的双重背景下,分红型年金保险正成为居民养老规划的重要工具。这类产品...
嘉兴又一家企业成功上市 现场,振石控股集团董事局主席张毓强,振石控股集团总裁、振石股份董事长张健侃与嘉宾代表共同执锤,以“坚...
AI赋能文娱板块,港股互联网E... 截止1月29日10点30分,上证指数跌0.18%,深证成指涨0.05%,创业板指涨0.40%。快手概...
原创 万... 突发大消息,郁亮疑似失联了。 1月8日,郁亮辞去了万科所有职务,彻底离开了,当时万科说是到年龄退休。...
思科CEO罗宾斯:AI的影响将... IT之家 1 月 29 日消息,当地时间 1 月 28 日,据英国 BBC 报道,思科系统董事长兼 ...
男性硬度差?4 个日常隐形杀手... 在男性健康的诸多话题里,勃起硬度问题一直是藏在背后的 “难言之隐”。不少男性遇到硬度不佳的情况,要么...
短期业绩承压又何妨?悦康药业港... 出品|中访网 审核|李晓燕 岁末年初,医药企业“A拆H”上市热潮持续升温,悦康药业集团股份有限公司(...
原创 1... 1991年,董明珠上门讨要42万货款,经销商却说:“再发50万的货,卖完一起结!”董明珠灵机一动道:...
利亚德投资企业Virtuix在... 1月27日,利亚德全资子公司利亚德香港投资企业Virtuix在美国纳斯达克交易所挂牌上市(股票代码为...
金价再上演“惊魂一跳”:560... 智通财经APP获悉,现货黄金价格在冲高逼近5600美元后出现回落,截至发稿,金价涨1.02%,报54...
鸿仕达IPO:实控人表决权超6... 1月30日,昆山鸿仕达智能科技股份有限公司(鸿仕达)北交所上市将迎来上会,保荐机构是东吴证券。 鸿仕...
快讯:恒指低开0.72% 科指... 美股周三先升后回,科技股带领下,大市早段一度破顶,其后联储局公布议息会议结果,市况走势转为反复,三大...
港股开盘:恒指跌0.72%,恒... 恒生指数低开0.72%,恒生科技指数跌0.79%。权重科技股集体走低,蔚来跌逾3%,京东集团跌逾2%...
德国下调今明两年经济增长预期,... 来源:环球市场播报 德国下调了今明两年的经济增长预期,理由是全球贸易的不确定性加剧,以及经济和财政政...
绝版了!马斯克宣布停产特斯拉M... 快科技1月29日消息,在特斯拉2025年第四季度财报电话会议上,马斯克宣布,特斯拉将在2026年第二...
紫金、洛钼、江铜等超660亿海... 来源:界面新闻 2025年以来,紫金矿业(601899.SH)、洛阳钼业(603993.SH)...
原创 A... 在股市里,每一次新股上市都像是一场未知的冒险。而就在恒运昌登陆A股前夕,不少幸运中签的股民却陷入了“...
【评论】金矿企业顺周期扩张提速... 界面新闻记者 | 侯瑞宁 界面新闻编辑 | 刘春 黄金牛市下,两大矿业巨头近日在全球收购金矿资产...