手机能跑!微软小模型击败Llama 2,96块A100 GPU训练14天 手机能跑!微软小模型击败Llama 2,96块A100 GPU训练14天
admin
2023-12-13 13:23:13
0

本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。



作者 | 程茜
编辑 | 李水青

智东西12月13日报道,昨日晚间,微软又亮出了小模型大招!

微软发布了27亿参数规模的小语言模型Phi-2,经研究人员测试,Phi-2在参数规模小于130亿的模型中展示了最先进性能

从性能表现看,Phi-2在Big Bench Hard(BBH)、常识推理、语言理解、数学和编码基准测试中,其平均性能得分已经超过70亿、130亿参数规模的Mistral和Llama 2,在部分基准测试中超过谷歌的Gemini Nano 2

Phi-2还有一大优势是,因为参数规模足够小,其可以在笔记本电脑、手机等移动设备上运行。

过去几个月间,微软研究院的机器学习基础团队陆续发布了小型语言模型(SLM)Phi系列。

其中,第一个模型为13亿参数规模的Phi-1,官方博客称,Phi-1在SLM中的Python编码方面表现最好,在HumanEval和MBPP基准测试上尤甚。第二个模型为13亿参数规模的Phi-1.5,这个模型的重点为常识推理和语言理解能力。

现在微软发布的Phi-2能为研究人员探索机器可解释性、安全性改进或对各种任务的微调实验上提供帮助,目前,Phi-2已经从Azure AI Studio模型目录中开放给研究人员。

一、96块A100 GPU训练14天,参数规模仅27亿

一些大模型的参数规模达到数千亿的量级,使得其涌现出众多新兴能力,那么,是否可以通过改变训练策略等方式让更小的参数实现这些能力?微软的小型语言模型(SLM)系列或许是这一问题的答案。

Phi-2是一个基于Transformer架构的模型,具有下一个单词预测目标,在用于NLP和编码的合成数据集和Web数据集的混合上多次传递的1.4Ttokens上进行训练。

Phi-2在96个A100 GPU上训练了14天,作为一个基础模型,其没有通过人类反馈强化学习(RLHF)进行对齐,也没有进行指令微调。

尽管如此,与经过调整的现有开源模型Llama 2-7B相比,研究人员观察到在避免生成有攻击性、有害和内容有偏差方面Phi-2的表现也不差。

研究人员根据ToxiGen的13个人口统计数据计算的安全评分,他们选择6541个句子的子集,并根据困惑度和句子“毒性”进行0到1之间的评分。分数高就说明,模型产生有攻击性、有害句子的可能性较小。



▲Llama 2与Phi-2在生成有攻击性、有害和内容有偏差方面性能比较(图源:微软官方博客)

微软使用Phi-2打破了传统语言模型缩放定律,其中有两个关键环节:

第一是训练数据的质量对模型的性能至关重要。微软的模型训练数据包含专门创建的合成数据集,用于教授模型常识推理,还包括科学、心理等领域的常识。

研究人员还挑选了一些网络数据进一步扩充训练语料库,并基于内容的价值和质量进行了数据过滤。

此外,从13亿参数规模的Phi-1.5开始,微软的研究人员实现了规模化的知识转移,将Phi-1.5的知识嵌入到27亿参数的Phi-2中。这种方法不仅加速了训练收敛,而且提高了Phi-2的基准分数。



▲Phi-2和Phi-1.5比较(图源:微软官方博客)

二、基准测试击败Llama 2、Mistral、GeminiNano 2

微软总结了Phi-2在学术基准上与主流语言模型的性能表现对比。

其基准测试涵盖Big Bench Hard(BBH数据集)以及PIQA、WinoGrande、ARC easy、Challenge、SIQA的常识推理、HellaSwag、OpenBookQA、MMLU、SQuADv2的语言理解数据集,GSM8k数学数据集和HumanEval、MBPP的编码数据集等。

27亿参数规模的Phi-2,在BBH、常识推理、语言理解、数学、编码各项基准测评上都超过了70亿、130亿参数规模的Mistral和Llama 2。

相比于参数规模差距在25倍的700亿参数Llama 2,Phi-2在编码、数学等多步推理任务上表现更好。



▲Llama 2、Mistral、Phi-2性能比较(图源:微软官方博客)

此外,微软还比较了Phi-2与谷歌最近发布的Gemini Nano 2,谷歌发布的模型参数规模为32.5亿,Phi-2的性能表现部分优于Gemini Nano 2。



▲Phi-2、Gemini Nano 2性能比较(图源:微软官方博客)

考虑到一些公共基准测试的数据可能会泄漏到训练数据中,微软对第一个模型Phi-1进行了广泛的净化研究以排除这种可能性。

基于判断语言模型的最佳方法是在具体用例上对其进行测试的考量,研究人员使用了多个微软内部专有数据集和任务评估了Phi-2,并再次将其与Mistral和Llama 2进行比较,其结果为,平均而言Phi 2优于Mistral-7B,后者优于70亿、130亿、730亿参数规模的Llama-2模型

除了基准测试外,研究人员还测试了社区内的一些常用提示,他们观察到的表现也与基准测试的结果预期一致。

其中,研究人员测试了用于评估谷歌Gemini Ultra模型在解决物理问题方面能力的问题。



与Gemini的测试类似,研究人员进一步向Phi-2询问学生的错误答案,来确认它是否能识别出错误所在。

不过,从输出结果来看,这并不完全是与Gemini报告中描述的Gemini Ultra输出的同类比较,Gemini测评中学生的答案上传了手写文本的图像,Phi-2的测试采用的是原始文本。



结语:大模型时代,小模型仍在崛起

Phi-2的参数规模仅有27亿,但相比于参数规模更大的70亿、130亿模型,其性能表现仍不逊色。微软专注于小模型市场的布局,也印证了大模型时代小模型的价值。

微软与OpenAI的紧密合作,使得GPT模型的表现在大模型市场一骑绝尘,再加上微软参数规模更小的Phi系列,能进一步抢占开源模型长尾市场。不过从目前来看,Phi系列仅被允许用于研究目的。

从市场来看,越来越多的玩家开始探索在手机等移动设备上部署大模型,微软此举或许也会加速模型能力在端侧的应用。

相关内容

热门资讯

苏超赞助太“散装”了:街边卤菜... “比赛还没开始,就有许多人特地来我们店打卡,生意也比之前好了很多。”位于江苏南京的一家卤菜店火了,该...
有鱼生活,如何撬动理性消费一代 当下消费图景中,一股强大的“研究型”消费风潮正席卷年轻群体。他们的决策路径前所未有地清晰:重成分、看...
起拍价2.12亿元,全程无人报... 来源:南国今报 起拍价2.12亿元 全程无人报价 阿里法拍平台显示,该拍卖标的物位于南宁市青秀区新民...
Sora关停后的国产混战,Ha... 本报记者于玉金 北京报道 近日,一款名为HappyHorse-1.0的神秘模型悄然登顶Artific...
原创 金... 2026年4月11日,周大福的柜员看着系统里刚刚刷新出的价格标签,足金首饰的报价从1453元调到了1...
100% 原汁原味,学透真巴菲... 你是不是也有过这样的困惑? 刷了无数巴菲特语录,买了一堆投资书,听了几十节线上课,可一到真金白银投钱...
原创 美... 美国政坛的戏剧性从未停歇,然而,当下这般分裂与荒诞并存的局面,即使在好莱坞的剧本中也显得过于夸张。就...
市场监管总局批准发布一批重要国... 4月10日,中国证券报·中证金牛座记者从市场监管总局获悉,近日,市场监管总局(国家标准委)批准发布一...
原创 金... 金价警报拉响:历史会重演?下月或现2015年式杀跌 你最近有没有去金店逛过?有没有发现那些金光闪闪的...
封测龙头长电科技业绩发布:20... 蓝鲸财经4月10日讯(记者 徐甘甘)388.71亿元营收、270亿元先进封装收入,双双创下历史新高—...
比亚迪客户,复合材料龙头,成功... 【DT新材料】获悉,4月10日,有研金属复合材料(北京)股份公司(以下简称“有研复材”),一家做了三...
2024-2000年上市公司企... 1、资料名称:2024-2000年上市公司企业实体技术绿色创新边界数据 2、测算方式:参考c刊《经济...
康师傅“再来一瓶”多店不兑换!... 文|《BUG》栏目 闫妍 “跑了5家门店,大多在可兑换名单上,没有一家兑换成功的!” 近日,有媒体报...
AI康养深度研究报告 今天分享的是:AI康养深度研究报告 报告共计:82页 这份AI康养深度研究报告显示,全球与中国老龄化...
重磅产教基地落地成都郫都 为区... 封面新闻记者秦怡 4月11日,2026小米新一代智能硬件技术行业产教融合共同体年会在成都市郫都区成都...
“百亿元利润”引爆A股!中信证... 华夏时报记者 王兆寰 北京报道 与此同时,中信证券的强势表现一度助力沪指重返4000点,沪深京市场...
写在第六届消博会举办之际:扬帆... 第六届中国国际消费品博览会会场。人民网记者 毛雷摄 作为“十五五”开局之年我国重大展会的“首展”、海...
“博物馆青铜剑发现拼接痕”,绍... 商泽阳/潮新闻客户端 4月10日,有媒体发文,绍兴一博物馆战国青铜剑被指有多处“拼接痕”,随后官方回...
创业板指创四年多新高 锂电产业... ◎记者 徐蔚 4月10日,A股市场迎来强势反弹,四大指数集体收涨。截至收盘,上证指数报3986.22...
银行“激战”消费贷 【导读】银行“激战”消费贷:布局分化、不良率普涨和中小银行破局之道 中国基金报记者 张玲 二季度刚开...