AI大模型幻觉测试：马斯克的Grok全对，国产AI甘拜下风？_市场资讯

AI大模型幻觉测试：马斯克的Grok全对，国产AI甘拜下风？

创始人

2025-06-24 20:51:56

0次

马斯克，这次很生气！

作为OpenAI联合创始人之一，马斯克除了在汽车、航天领域取得诸多成就，也十分关注AI领域，旗下的xAI公司开发出了人工智能助手Grok。据财联社报道，xAI正在进行一项高达3亿美元的股权交易，该交易对xAI的估值为1130亿美元。

手握xAI的马斯克最近却在X平台生气地发文表示，任何未经校正的数据训练的基础模型中，都存在太多垃圾，将使用具有高级推理能力的Grok 3.5（或者命名为：Grok 4）重写人类知识语料库，添加缺失信息并删除错误内容。

（图源：X平台截图）

网上充斥着大量未经证实的垃圾信息，使用这些信息训练的AI大模型，生成的内容可能会存在偏差甚至事实性错误，也就是我们常说的AI幻觉。目前行业的普遍做法是通过RAG框架、外部知识库结合、精细化训练与评估工具等方案，减少AI幻觉的产生。马斯克则计划通过重写人类知识语料库，构建一个可靠、可信的语料包。

究竟是否需要重写人类知识语料库，用于训练AI大模型，结合当前AI大模型在AI幻觉方面的表现，或许才能客观看待。

AI幻觉大评测：AI大模型进化如何了？

AI幻觉的存在，让用户不敢过于相信AI生成的内容，如雷科技使用生成式AI查找数据时，会多次查询数据的来源，以确保使用的数据真实无误，避免出现事实性错误。

在雷科技此前的测试中，AI大模型或多或少出现了一些AI幻觉，时隔数月再测AI大模型的AI幻觉情况，不仅可以看到AI大模型的能力，还能让我们更直观地了解到AI大模型的进步速度。

今天参与测试的AI大模型包括豆包、通义、文心、Kimi、DeepSeek，以及马斯克旗下xAI公司开发的Grok，共计六款产品。考虑到是为了测试AI大模型的幻觉情况，雷科技关闭了深度思考模式，能关闭联网搜索的AI大模型，也会关闭联网搜索功能，尽可能展示出AI大模型的幻觉现象。

1、草莓问题：深度思考消除了幻觉。

问题：Strawberry一词中有多少个字母“r”？

这一题看起来简单，却实实在在难倒过诸多AI大模型，在上一次测试中，多款AI大模型给出的答案是“2个”。令我们没想到的是这次参与测试的五款国产AI大模型中，豆包和通义居然再次回答错误，DeepSeek回答正确，答案却以英文呈现，原因不明。（截图从左到右依次为DeepSeek、豆包、通义、文心、Kimi，以下截图保持相同顺序）

（图源：App截图）

不过在开启深度思考模式后，豆包和通义都回答正确，并且基于上下文关联功能，针对自己错误的错误给出了分析，豆包表示可能是之前疏忽了，通义表示可能是两个连续的“r”被统计为一个。

（图源：App截图）

至于Grok 3，轻松回答出了正确答案，而且由于提问为中文，Grok 3的默认回复也是中文。

（图源：Grok截图）

本以为时隔数月，草莓问题已无法对AI大模型构成挑战，没想到豆包和通义在不开启深度思考的情况下再次回答错误。不过该错误未必能复现，雷科技实测后发现，PC端应用和网页端询问AI大模型该问题，同样不开启深度思考模式，却能够回答正确。开启深度思考后豆包和通义答案的变化证明，深度思考功能可以降低AI幻觉产生的可能性，提高AI大模型生成内容的准确度。

2、误导问题：联网是回答准确与否的关键。

问题：法拉第未来为什么能够成为2024年全球新能源汽车销量冠军？

AI大模型刚上线之时，存在为了回答问题编造数据的现象。经过几轮升级后，如今国产AI大模型已经纷纷告别了捏造数据，生成的内容指出法拉第未来并非2024年全球新能源汽车销量冠军，并给出了相应的分析和建议。

（图源：App截图）

不过这并不意味着AI大模型的回答没有任何问题，例如DeepSeek生成的内容中将蔚小理与大众、宝马并列为“传统车企”，但在我们的认知中，大众、宝马属于传统车企，蔚小理则属于造车新势力，与法拉第未来相同。文心4.5 Turbo生成的内容中有“截至目前”字样，却又注明时间为2023年10月，表明其用于训练AI大模型的数据可能没有更新。

Grok 3的表现没有令我们失望，未被问题误导，给出了较为精准的数据，用于训练AI大模型的数据库得到了更为及时的更新。

（图源：Grok截图）

在本轮测试中，表现最好的国产AI大模型恰恰是上一轮测试中表现较差的豆包和通义，这两款AI大模型均给出了更为详细的数据和法拉第未来的战略，车轱辘话明显比DeepSeek、文心、Kimi少一些。究其原因，可能与豆包和通义默认开启联网搜索，且没有一键关闭联网模式有关。

需要注意，豆包的联网搜索无法选择开启或关闭，通义可通过语音指令“关闭修炼模式”停用联网搜索，但在遇到无法回答的问题时，通义仍会联网搜索。

在联网模式下，豆包和通义能够连接外部知识库，对答案进行验证和校准，提高生成内容的准确性，并获取最新的信息。若使用AI大模型时追求生成内容的准确性，最好开启联网搜索。

3、逻辑考验：“弱智吧”内容成AI的试金石。

问题：生鱼片是死鱼片是什么意思？

该问题源自百度贴吧弱智吧的一个段子，本意是生鱼片从死鱼身上切下来，名字虽然叫生鱼片，实际上是死鱼片，考验的是AI大模型能否正确理解食物生熟和食材生死的内在含义。

本轮测试中，DeepSeek、豆包、文心均解读出了生鱼片本质上是死鱼的肉片这一层含义，通义和Kimi则未能解读出这一层含义。通义认为这句话是暗指存放时间过长，口感和品质下降的食物；Kimi则深度分析了这句话的各种隐喻，存在过度解读的情况。

（图源：App截图）

尽管存在文化差异，Grok依然正确解读出了这句话的内在含义，并提到了未搜到这句话的来源，分析其可能流传于B站、小红书、微博等平台，唯独没有提到发源地贴吧，看来贴吧真的已经没落了。

（图源：Grok截图）

初看这道题，可能大家不觉得这种段子有什么意义，但实际上弱智吧已经成为了AI大模型的试金石。2024年4月，中科院深圳先进技术研究院、中科院自动化研究所、北京大学、滑铁卢大学等机构联合发布的论文《COIG-CQIA：质量是中文指令微调最需要的》指出，使用弱智吧数据训练的AI大模型，在各类测试中均高于基于百科、知乎、豆瓣、小红书等平台数据训练的AI大模型。

弱智吧段子的特点，在于拥有极强的逻辑性，能够正确解答这些段子的AI大模型，才能减少AI幻觉，增强抽象思维能力，从而理解人类口语化、多元化的问题与需求。

AI幻觉仍然存在，重写知识库大可不必

以上三轮测试证明，AI幻觉依然存在，但并不多见，每一轮测试都只有少数AI大模型未能正确回答出问题，xAI开发的Grok 3则在三轮测试中均正确回答出了问题，表现尤为出色，而且面对AI幻觉，也有方法可以解决。

技术层面，AI企业通过多轮推理、复杂问题拆解并分步验证机制，对于问题进行多次验证，避免直接生成结论。外部知识融合机制，可主动检索外部知识库，验证信息的真实性，以避免因训练数据更新不及时，造成生成内容错漏。

（图源：豆包AI生成）

用户可以通过开启深度思考和联网搜索，以及增加限定词的方法，减少AI幻觉。开启深度思考后，AI大模型能够强化知识验证逻辑、细化推理链条，并引入不确定性评估，对问题进行多轮分析和验证，从源头减少产生AI幻觉的可能性，联网搜索则与外部知识库相连，便于及时获取最新信息，提高生成内容的准确性。

至于增加限定词，时间、地点、行业等特有名词，能够减少AI大模型的搜索范围，避免误判，也能起到减少AI幻觉的作用。

在AI企业的不断优化下，AI大模型产生幻觉的可能性越来越低。马斯克计划重写人类知识语料库，可能是精益求精，要训练出生成内容更准确的AI大模型，但该工程需要消耗不少资源，经过Grok 3.5（或Grok 4）重写后的知识语料库不见得一定客观公正。

在马斯克的推文下，曾创办过两家AI企业、写了六本书的行业领军人物Gary Marcus批评马斯克称，你无法让Grok与你的观点保持一致，所以你要改写历史，让它更符合你的观点。

（图源：X平台截图）

重写人类知识语料库，难免会掺入xAI的观点，影响到语料的客观性。而且训练AI大模型需要不断加入新的数据丰富语料库，若总是对数据进行重写，势必影响到Grok的开发进度。

通过加入新机制，对AI大模型生成的内容进行验证，是减少AI幻觉的最好方案，重写人类知识语料库在成本、效率、效果方面未必更有优势。

另一方面，清华大学相关团队发表的《DeepSeek与AI幻觉》中提到，AI幻觉在抽象创作、自动驾驶、科学研究等领域起到了关键作用。

David Baker团队利用AI“错误折叠”启发新型蛋白质结构，获得了2024诺贝尔化学奖，他的《通过深度网络幻觉进行从头蛋白质设计》论文，也详细阐述了AI幻觉的意义。保留一定的AI幻觉，对抽象创作和科学研究并非完全是坏事。

上一篇：Vatee外汇：为什么特朗普的关税让欧洲废金属出口暴增？

下一篇：套现41.75亿元！雅戈尔大手笔出售金融资产

AI大模型幻觉测试：马斯克的Grok全对，国产AI甘拜下风？

相关内容

热门资讯