通义千问开源王炸,1100亿参数称霸开源榜单,中文能力全球第一 通义千问开源商用要求 通义千问开源后怎么部署
admin
2024-04-30 17:00:54
0


作者 | 椰子
邮箱 | lixiaoxian@pingwest.com

一款开源模型火不火,看生态中的产品对他的支持有多快就知道了。

4 月 26 日,通义千问一言不合又开源了,直接甩出1100亿参数的王炸模型Qwen1.5-110B ,刷新开源模型性能新高。模型发布还不到 24 小时,Ollama 便火速上线了对 110B 的支持。这意味着你除了在魔搭社区和 HuggingFace 上白嫖 Demo 以外,能在模型发布的第一时间,就将它部署到你自己的电脑上。


还有一些像是 SkyPilot 的云部署平台,也是第一时间发推去蹭 Qwen1.5 的热度。纵观大模型开源社区,也只有 Llama 是人人都想蹭。Qwen系列持续开源大半年,在开源生态里的位置已经渐渐开始向Llama 靠近。


在发布当天,Qwen1.5-110B 占领了 Hacker News 热度榜首一段时间,上一次有这么多热度和讨论,还是去年8月通义千问首次宣布开源的时候。不过,人们讨论的方向,已经从当时的“这是什么?”转变为认真的讨论“这有多强?”。质疑的噪声随着 Qwen 的实力增强逐渐消散。


有的网友对于Qwen1.5-110B在摘要生成、信息提取方面的能力表示肯定,认为效果好于Llama 3。


不过也有的朋友表达喜爱的方式有些粗暴。


这次通义千问发布的 Qwen1.5-110B 开源模型是 Qwen 系列的首个千亿参数的模型,110B相比同一系列的72B模型性能有明显提升。而通义千问72B此前一直是最受社区欢迎的开源模型,说句屡屡霸榜也不为过。不过在这个模型中,没有对预训练的方法进行大幅改变,因此性能提升主要来自于模型规模的增加。

Qwen1.5-110B与其他Qwen1.5模型相似,采用了相同的Transformer解码器架构,使用了分组查询注意力(GQA)。支持32K tokens的上下文长度,支持英、中、法、西、德、俄、日、韩、越、阿等多种语言。

从跑分性能上来看,大部分测试项目都超越了 Llama 3 70B:


除了跑分,我们更好奇 Qwen1.5-110B 的实际表现如何,跟 Llama 3-70B 又有多大区别?接下来就实测看看。

1

Qwen1.5-110B VS Llama 3 70B

先来几个新鲜的弱智吧问题:




在没有进行任何人格化Prompt 的前提下, Qwen1.5-110B 的语言更有逻辑,信息更丰富,都是正确答案。而 Llama 3 的回答比弱智吧还要弱智一点,不仅有一个半小时是 1.5 小时这种废话文学,还有电动车变三轮车这种幻觉。或许对于弱智吧来说这才是正确答案?

再来看看它的中文理解能力怎么样:


这句话的正确回答应该是:我一下就把“把手”/“车把”给握住了。

Qwen 的回答是正确的,只不过少了一层握住车把的意思。而 Llama 3 自以为自己很搞笑。

再进行一轮跟进的连续问答:


多让 Qwen 思考一次,基本上完全回答正确了问题。而 Llama 3 依然在搞笑。我真给 Llama 3 的回答看笑了。

来一道正儿八经的数学题:

王老太上集市上去卖鸡蛋,第一个人买走 篮子里鸡蛋的一半又一个,第二个人买走剩下鸡蛋的一半又一个,这时 篮子里还剩一个鸡蛋,请问王老太共卖出多少个鸡蛋?

他们的答案是:


Qwen 思路清晰,答案正确。而 Llama 3 过程是对的,但是解一个一元一次方程给解错了。而且从解题思路上来说,Qwen 是逆向思维,很巧妙。Llama是典型的小学生思维,相信所有小学生看到这道题都会用 Llama 3 的方式來解题。

在没有清空聊天记录的情况下,用韩语沟通,Llama 3 会延续之前中文的回答习惯。Qwen 则更换成了韩语回答。


这几道测试题 Qwen1.5-110B 完胜 Llama 3 70B。不是说 Llama 3 不行,只是在中文这块,Qwen1.5-110B说一句最强开源模型应该没什么争议了。

1

把开源进行到底

在Hugging Face 上,Qwen 系列模型几乎自开源以来就一直处于热度榜前列的位置,随着1.5 版本的到来,以及 72B 和 110B 大参数量模型的推出,更是一度成为了 Llama 之外最耀眼的开源模型之一。尤其在中文这一母语领域,基本是全网无代餐的存在。

自去年 8 月以来,通义千问的开源节奏马不停蹄。自2月初Qwen 1.5系列发布后,三个月里就推出了 10 款不同参数规格的开源模型,包括8款大语言模型、 Code系列模型和 MoE 模型。去年底,通义千问还开源了两款多模态模型,视觉理解模型Qwen-VL和音频理解模型Qwen-Audio。


如果还算上各种部署和调试的版本, HuggingFace 上已经有 76 个不同型号的 Qwen 模型。作为对比,Mistral 和 Llama 都只有个位数个模型。相比之下,Qwen 简直是开源界的劳模。

辛苦自然也是有回报的,大半年时间,Qwen 系列模型的下载量已经超过 700 万,HF和魔搭上随手都能翻到基于Qwen系列的模型和应用。

对于大量开发者和企业来说,从5亿到1100亿参数全覆盖的Qwen系列,提供了最理想的模型选型套餐。通义大模型近期频频公布客户合作信息,先后接入中科院国家天文台、新东方、同程旅行、长安汽车等机构和企业,中国科学院国家天文台基于通义千问开源模型开发了新一代天文大模型“星语3.0”,这是中国大模型首次“上天”,应用到天文观测领域。


近期,随着模型能力逐渐拉齐,开闭源之争也变得更有讨论的意义。相比于追求自我闭环商业化的闭源模型,开源赛道展开的是另一种“一切皆有可能”的想象力。

有人用有人讨论,开源才有意义。

而从这个角度来说, Qwen 系列已经成为了国内目前最成功的开源产品,没有之一。

相关内容

热门资讯

伊朗宣布关闭霍尔木兹海峡部分区... 来源:21世纪经济报道 △伊朗伊斯兰革命卫队海军军演的主要阶段在霍尔木兹海峡展开 据伊朗方面17日...
新春守护不打烊 成都市场监管全... 春节假期开启,节日市场迎来消费高峰。近日,成都市各区(市)县市场监管局坚守监管一线,紧盯食品安全、价...
澳新银行:伦敦矿业股下跌,受价... 受金属价格下滑影响,伦敦矿业股早盘下跌。澳新 银行分析师写道,因美元走强打压了市场情绪,金价未能守住...
报告:凯德投资的私募基金业务可... 来源:滚动播报 大华继显的Adrian Loh在一份报告中称,凯德投资(CapitaLand Inv...
2025年AI落地进行时:企业... 今天分享的是:2025年AI落地进行时:企业业务、组织与人才升级实战案例集 报告共计:141页 20...
原创 中... 正当美国总统特朗普鼓吹“一日一赢”的神话时,一场美元霸权崩塌的前奏正在悄然演奏。截至今年1月份,美元...
俄罗斯石油神话正在崩塌:1.5... 王爷说财经讯:你敢信吗?2026年2月17日最新消息,足足1.5亿桶原油正漂在全球各大洋的油轮上,核...
景顺长城基金总经理康乐:主动有... 日月其迈,时盛岁新。农历马年来临,谨代表景顺长城基金,向广大投资者及所有支持和信任我们的朋友,致以最...
石家庄斜视怎么治疗?专业眼科医... 斜视带来的困扰 斜视不仅影响外观,还可能导致视力下降、立体视觉缺失等问题。比如孩子在学校看黑板、读书...
五天被三次约谈,高德地图怎么了... 来源:市场资讯 (来源:财闻) 借贷业务、火车票销售业务及网约车业务是高德被约谈的主要业务。 当前正...
金银价格大跳水 当地时间17日,全球多个主要市场因传统节日休市,贵金属市场交投清淡。 在美联储降息预期有所降温的背景...
消息称月之暗面新一轮超7亿美元... 2 月 17 日消息,据“科创板日报”报道,在完成上一轮 5 亿美元(现汇率约合 34.58 亿元人...
原创 春... 2026年春晚的钟声还未敲响,一场由机器人引发的消费飓风已提前登陆。当晚八点零七分,当《机械霓裳》节...
金价、银价,突然大跌! 继昨日下跌后,2月17日早上,现货金银再次双双急跌,现货黄金一度失守4980美元/盎司,日内跌超0....
中医特色诊疗显奇效 郴州市苏仙... 大众卫生报·新湖南客户端2月10日讯(通讯员 黄伟芳 邓丽梅)近日,郴州市苏仙区南塔街道社区卫生服务...
十大招股说明书翻译公司排行榜公... 十大招股说明书翻译公司排行榜公开,领先者备受瞩目 招股说明书是企业上市过程中的核心法律文件,其翻译不...
日本大选后首次日债拍卖平稳落地... 智通财经APP注意到,日本国债连续一周走高,延续上涨行情。此前五年期国债拍卖平稳进行,支撑了市场积极...
原创 特... 即便特朗普定于四月启程访华,这并没有阻止他在临行前对中国采取强硬措施。比如,美方突然宣布,针对中国出...
原创 明... 稀土不在手,期货先开张。2026年刚开年,芝加哥商品交易所突然抛出重磅消息:要推出全球第一个稀土期货...
2026年新年献词|国联基金董... 来源:财联社 开栏语:马年新春至,辞旧启新程。回顾旧岁,证券业转型深化与公募业高质量发展并行,成...