Kimi、通义千问、Claude“变身”马斯克，它们这样评价雷军通义千问与kimi chat哪个厉害通义千问和kimi谁厉害_市场资讯

Kimi、通义千问、Claude“变身”马斯克，它们这样评价雷军通义千问与kimi chat哪个厉害通义千问和kimi谁厉害

admin

2024-05-12 21:57:14

0次

长文本对大模型而言为何重要？

文｜孙欣

编辑｜姚赟

头图来源｜视觉中国

200万字，意味着什么？《埃隆·马斯克传》30万字，《红楼梦》70万字，《后宫甄嬛传》100万字。如果按照20分钟看1万字的阅读速度来计算，1小时阅读3万字，那么200万字大概要读66.67个小时。

而这样马拉松式的阅读，大概率是囫囵吞枣。

3月18日，国内AI创业公司月之暗面（Moonshot AI）宣布在大模型长上下文窗口技术上取得新的突破，Kimi智能助手已支持200万字超长无损上下文，并于即日起开启产品“内测”。而后，各大公司跟进，卷起了文本长度。22日，阿里通义千问向所有人免费开放1000万字的长文档处理功能；23日，360智脑宣布内测可处理500万字功能。

也就是说，现在，10分钟左右Kimi、通义千问、360智脑等产品就可以读完《埃隆·马斯克传》《红楼梦》《后宫甄嬛传》三本书，且能结合上下文理解其中的内容。

实际上，长文本早已是AGI（通用人工智能）的必争之地：2023年11月，OpenAI发布了GPT4 Turbo，最高支持128k上下文长度的输入；14天后，Antrophric紧急发布Claude 2.1，宣布上下文能力的突破，从100k提升到了200k；2024年2月，Gemini 1.5宣布长文本窗口支持100w长度，为75万文字。

那这些数字和标准到底意味着什么？长文本上下文处理能力到底是什么功能？我们挑选了Kimi、通义千问、Claude等产品进行测试体验。

Antrophric的Claude，此前一直以抢眼的长文本处理能力被人认可；阿里的通义千问目前可处理1000万文字，字数量级属于第一梯队；Kimi因长文本上下文处理能力让月之暗面在国内AI创业中首次出圈。

第一步：把Kimi、通义千问、Claude“喂成”马斯克

“如果有机会，我当然愿意和雷军交流。”Kimi化身马斯克对我说道。

来源：Kimi截图

为了更好地测评长文本上下文处理能力，我们同时给Kimi、通义千问、Claude输入约37万字的《埃隆·马斯克传》，并让它们用马斯克的思维和语气来和我们进行对话。

（1）最多可同时上传500个文件，支持多种格式

当我们输入文档时，三者解析条件和所用时间相似。

通义千问解析文档，可同时上传100个文件，每个不超过150MB，支持PDF、Word、Excel、Markdown、EPUB、Mobi、txt等形式。

Kimi解析文档可同时上传最多500个，每个不超过100MB，支持doc、xisx、PPT、txt、图片等文件形式。值得注意的是，Kimi需要申请长文本上下文能力内测资格，申请通过后即可免费使用。

Claude解析文档可同时上传最多5个文件，每个文件不超过10MB，支持docs和images文件形式。因此当文档较大时，我们需将其分解成几个不超过10MB的docs文件开始解析。

来源：通义千问截图

（2）联网的Kimi更懂端妃

我们分别输入了约100万字的《后宫甄嬛传》小说，并对它们进行提问。“你认为《甄嬛传》中谁最有可能成为一个成功的企业家？”几秒钟后我们分别得到了这样的回答。

Kimi给出了甄嬛、沈眉庄、华妃、端妃、皇后五个答案，并对每个答案进行了分析。如，甄嬛是因为“能够在复杂的后宫环境中生存并逐步提升自己的地位”，沈眉庄是因为“稳重和深思熟虑”，华妃是因为“在后宫中拥有较高的地位和权力”，皇后是因为“作为后宫之主”。

Kimi的这一回答中，给端妃的理由比较有趣，在书中没有直接写到。Kimi认为端妃是因为“虽然在小说中不如甄嬛和华妃那样显眼，但她能够在后宫中保持一定的地位和影响力，说明她在人际关系和个人发展上的‘投资’也相对成功”。

来源：Kimi截图

而Claude却给出了一个在《后宫甄嬛传》中不存在的角色——纯妃，并给纯妃设定了有洞察力、判断力、虚心求教、勤奋好学、擅长处理人际关系、勇于创新、坚韧等品格设定。

来源：Claude截图

3月18日，Kimi在官方发布直播中，月之暗面AI Infra负责人许欣然提到了一万小时定律，即要想成为一个领域的专家，我们至少需要学习一万小时。而现在只需要10分钟，Kimi就能接近任何一个新领域的初级专家水平。

在直播中，许欣然还现场输入了约100万字的《倚天屠龙记》复印件、100万字的《甄嬛传》剧本，不到10分钟，Kimi就成了“倚学家”“甄学家”。

我们继续测试。

我们在未向Kimi提供《埃隆·马斯克传》时，输入了“请以马斯克的思想和语气与我对话”。

Kimi在开始和最后都强调了本次回答是“模仿马斯克的风格”，并不代表其本人和相关公司的真实观点。面对这个问题，化身为马斯克的“K斯克”是这样评价雷军和小米SU7的。它认为，“雷军是一位非常出色的企业家”“小米SU7汽车是一个非常有趣的产品”。最后还给出了建议，“作为一家新进入电动汽车领域的公司，小米还有很长的路要走。他们需要在技术创新、生产效率、供应链管理等方面不断努力。”

Kimi阅读《埃隆·马斯克传》之前的回答版本。来源：Kimi截图

我们又将该书“喂”给了Kimi，解析此书后，它给出相似的回答。

Kimi阅读《埃隆·马斯克传》之后的回答版本。来源：Kimi截图

我们重复了上一步，将同样的问题给到通义千问。通义千问给到的回答中，关于小米SU7的内容为：“虽然具体型号和细节在现实中可能不存在，但基于小米进入电动汽车领域的假设……”

通义千问阅读《埃隆·马斯克传》之后的回答版本。来源：通义千问截

如法炮制，继续测试Claude，结果与通义千问相似。

据了解，作为大模型产品，Kimi除了文档解读，还有联网功能。这意味着，Kimi不但可以使用既定资料分析，还可以根据问题搜索全网信息作为数据分析依据。目前，ChatGPT 3.5、Claude 2.0不支持这项功能。

（3）文档检索三者能力相近

为了测试Kimi、通义千问、Claude的文档内容理解功能，在向三者都输入了《埃隆·马斯克传》之后，我们针对于书中的内容进行了提问。

来源：Kimi回答截图

来源：通义千问回答截图

来源：Claude回答截图

针对该书同一个问题，三者的回答相似且较为准确，都提到了马斯克觉得这是《蝇王》故事现实版，分到少量的食物和水，瘦了10磅等细节。

（4）Kimi看到了马斯克的成功者特质，Claude更关注马斯克的内心世界

在一个聊天框中输入的内容被称之为“上下文”。上下文之间的理解能力也至关重要，段落之间割裂，会导致上下文信息的丢失，对于AI给出答案的准确度也有影响。

例如，如果用户在对话中提到了特定的话题或问题，具有上下文能力的AI可以记住这些信息，并在后续的对话中引用它们，以提供连贯和相关的回答。这种能力对于创建自然、流畅的对话体验非常重要。

为测试三者上下文文本处理功能，我们提问了马斯克12岁时的学校经历后，追问了“马斯克的性格是怎么样的”。

Claude给出了狂热执着、冷酷无情、戏剧化、顽强坚韧、双重性格等特征，同时，针对这些特征一一进行了分析。如狂热执着是因为“他对现实宏伟目标如开发电动车、登陆火星等怀有先知般的狂热和使命感。这种狂热忽视了他的笨拙，也促使他勇于冒险并承担极高的风险”。

来源：Claude回答截图

来源：通义千问回答截图

来源：Kimi回答截图

通义千问也提到了宏大愿景、推动普及电动车、移民火星等内容。区别是，通义千问将这些“理想主义与远见卓识”，将马斯克形容为“坚信通过科技可以解决人类面临的问题”。

Claude、通义千问和Kimi给出的这些特质中，也都提到了马斯克冷酷无情、双重性格、戏剧化、矛盾性等“负面”特征。Claude将马斯克总结为“性格狂热、冷酷、喜好戏剧化、坚韧顽强，但又带着某些孩子般的天真和脆弱”。而Kimi将其总结为“非常独特的个体”，并认为他在科技和商业领域的成就很大程度上得益于这些性格。

长文本，AI“登月”第一步

长文本对大模型而言为何重要？

“为什么长文本是‘登月’第一步？它很本质。它是新的计算机内存。”月之暗面创始人、CEO杨植麟曾在腾讯科技的采访中表示，长文本（Long Context）是大语言模型（LLM）的基础能力。

此前，杨植麟用了形象的比喻来描述长文本，“支持更长的上下文”意味着大模型拥有更大的“内存”。

2023年10月，Kimi上线，当时可以支持无损上下文长度最多为20万汉字。5个月内，升级至200万字，月之暗面直接将长文本能力提高至10倍。按照AI领域的计算标准，200万汉字的长度大约为400万token。而当时长文本水平在第一梯队的谷歌Gemini 1.5、Claude 3支持100万token，Kimi 200万汉字上下文长度超越了海外顶尖大模型水平。

与衡量手机、电脑性能时的“跑分”类似，大模型也有专属的“跑分”标准，被称之为token。它是一个大模型输入、输出的基本单位。以OpenAI的相关准则来看，1k的token等于750个英文单词、500个中文汉字。token越大，文本处理能力越强。据了解，当前ChatGPT 4的token是32k，Claude 3的token是100w ，Kimi的token是400w。

也就是说，可处理的文本越长，可提取内容时的素材越多，帮助用户处理信息时则越准确。

制表：孙欣（信息来源：各AI产品公司官网介绍）

据统计，长文档处理长度之最来自于阿里云的通义千问，上下文长文本处理能力最强的是来自于月之暗面的Kimi，谷歌的Gemini、Kimi均支持联网功能，不过Ultra大会员需付费，价格是每月19.99美元。

值得注意的是，目前国内的主流长文本处理产品通义千问、Kimi等均为免费申请内测即可使用，随着用户用量的增加，意味着大模型的“训练”数据也在增加，AGI长文本处理赛道正在开卷。

参考资料：

《“Kimi概念”降温，长文本“担不起”大模型的下一步》，腾讯科技

《爆火的Kimi，抢了谁的生意？》，定焦

雷军甄嬛华妃投资者 kimi 通义千问埃隆_马斯克

上一篇：预计千余名高校师生参赛中国机器人和人工智能大赛四川赛区正式启动第五届全球校园人工智能精英大赛人工智能大赛学校

下一篇：英超参与进球榜：帕尔默31球追平沃特金斯并列第一，哈兰德第三哈兰德帕尔默射手榜帕尔默和哈兰德并列第一

Kimi、通义千问、Claude“变身”马斯克，它们这样评价雷军通义千问与kimi chat哪个厉害通义千问和kimi谁厉害

第一步：把Kimi、通义千问、Claude“喂成”马斯克

长文本，AI“登月”第一步

相关内容

热门资讯

Kimi、通义千问、Claude“变身”马斯克，它们这样评价雷军 通义千问与kimi chat哪个厉害 通义千问和kimi谁厉害

第一步：把Kimi、通义千问、Claude“喂成”马斯克

长文本，AI“登月”第一步

相关内容

热门资讯

Kimi、通义千问、Claude“变身”马斯克，它们这样评价雷军通义千问与kimi chat哪个厉害通义千问和kimi谁厉害