微软发布Phi-3,性能超Llama-3,可手机端运行 微软发布phi-2模型硬件要求 微软免费的3a大作
admin
2024-04-24 13:04:53
0



机器之心报道

编辑:小舟、泽南

数据已成为提升大模型能力的重点。

Llama-3 刚发布没多久,竞争对手就来了,而且是可以在手机上运行的小体量模型。

本周二,微软发布了自研小尺寸模型 Phi-3。

新模型有三个版本,其中 Phi-3 mini 是一个拥有 38 亿参数的语言模型,经过 3.3 万亿 token 的训练,其整体性能在学术基准和内部测试上成绩优异。

尽管 Phi-3 mini 被优化至可部署在手机上,但它的性能可以与 Mixtral 8x7B 和 GPT-3.5 等模型相媲美。微软表示,创新主要在于用于训练的数据集。



与此同时,Phi-3 与 Llama-2 使用相同的架构,方便开源社区在其基础上开发。



此前,微软的 Phi 系列模型曾经引发了人们的热议,去年 6 月,微软发布了《Textbooks Are All You Need》论文,用规模仅为 7B token 的「教科书质量」数据训练 1.3B 参数的模型 phi-1,实现了良好的性能。

去年 9 月,微软进一步探索这条道路,让 1.3B 参数的 Transformer 架构语言模型 Phi-1.5 显示出强大的编码能力。

去年底,微软提出的 Phi-2 具备了一定的常识能力,在 2.7B 的量级上多个基准测试成绩超过 Llama2 7B、Llama2 13B、Mistral 7B 等一众先进模型。



Phi-3 技术报告:https://arxiv.org/abs/2404.14219

刚刚提出的 phi-3-mini 是一个在 3.3 万亿个 token 上训练的 38 亿参数语言模型。实验测试表明,phi-3-mini 的整体性能可与 Mixtral 8x7B 和 GPT-3.5 等模型相媲美,例如 phi -3-mini 在 MMLU 上达到了 69%,在 MT-bench 上达到了 8.38。

微软之前对 phi 系列模型的研究表明,高质量的「小数据」能够让较小的模型具备良好的性能。phi-3-mini 在经过严格过滤的网络数据和合成数据(类似于 phi-2)上进行训练,并进一步调整了稳健性、安全性和聊天格式。

此外,研究团队还提供了针对 4.8T token 训练的 7B 和 14B 模型的初始参数扩展结果,称为 phi-3-small 和 phi-3-medium,两者都比 phi-3-mini 能力更强。



学术基准

在标准开源基准测试中,phi-3-mini 与 phi-2 、Mistral-7b-v0.1、Mixtral-8x7B、Gemma 7B 、Llama-3-instruct8B 和 GPT-3.5 的比较结果如下表所示,为了确保具有可比性,所有结果都是通过完全相同的 pipeline 得到的。



安全性

Phi-3-mini 是根据微软负责任人工智能原则开发的。保证大模型安全的总体方法包括训练后的安全调整、红队(red-teaming)测试、自动化测试和数十个 RAI 危害类别的评估。微软利用受 [BSA+ 24] 启发修改的有用和无害偏好数据集 [BJN+ 22、JLD+ 23] 和多个内部生成的数据集来解决安全性后训练(post-training)的 RAI 危害类别。微软一个独立的 red team 反复检查了 phi-3-mini,以进一步确定后训练过程中需要改进的领域。

根据 red team 的反馈,研究团队整理了额外的数据集从而完善后训练数据集。这一过程导致有害响应率显著降低,如图 3 所示。



下表显示了 phi-3-mini-4k 和 phi-3-mini-128k 与 phi-2、Mistral-7B-v0.1、Gemma 7B 的内部多轮对话 RAI 基准测试结果。该基准测试利用 GPT-4 模拟五个不同类别的多轮对话并评估模型响应。



缺陷

微软表示,就 LLM 能力而言,虽然 phi-3-mini 模型达到了与大型模型相似的语言理解和推理能力水平,但它在某些任务上仍然受到其规模的根本限制。例如,该模型根本没有能力存储太多「事实知识」,这可以从 TriviaQA 上的低评分中看出。不过,研究人员相信这些问题可以通过搜索引擎增强的方式来解决。



参考内容:https://news.ycombinator.com/item?id=40127806

相关内容

热门资讯

三星内存工人或将获得280万人... 财联社5月21日讯(编辑 马兰)由于三星电子管理层与工会在最后一刻达成协议,避免了罢工,三星电子股价...
世界杯如何把一张门票卖成奢侈品 企业把世界杯当成全球顶级商务社交场,2023年-2026年周期,国际足联的票务收入首次超过商业赞助 ...
开出3万尺卖场,京东继续横扫香... 来源:源Sight 作者:白河 京东终于要把自家的线下“大卖场”京东MALL开到香港去了。 据多家媒...
加快完善中央银行制度!国常会讨... 5月21日,国务院总理李强主持召开国务院常务会议,研究推进全国统一大市场建设有关工作,审议通过《现代...
毕业人数历史新高,大城市却还在... 今年的毕业生人数要破纪录了,预计1270万人,和去年相比又增长了48万,再创历史新高。 按理来说,就...
28.5万亿美元——这是Spa... 全球太空探索领军者SpaceX最新发布的这份万众瞩目IPO招股说明书显示,其自行评估的SpaceX总...
乐聚智能冲击IPO,聚焦人形机... 2025年以来全球人形机器人行业进入爆发期,无论是企业数量,还是融资规模均实现跨越式增长。 据人形机...
年轻人把澡堂子玩成了社交顶配 ... 花上几百元,甚至上千元,到澡堂子待一天——这是时下最流行的休闲消费方式。当然,澡堂子们也把名字升级为...
原创 五... 无营生可做,无房产置办,也无心做任何投资,整日里就单纯陪着父亲左右度日。 这话是他说的,5月13日,...
合肥居家闲置黄金整理指南 轻松... 随着近年来黄金市场行情持续向好,合肥不少市民开始整理家中闲置的黄金首饰、金条等物品,希望通过合理处置...
廿载荣耀见证!52位券商领军者... 权威集结,见证行业标杆! 由证券时报主办的“2026中国证券业君鼎奖”活动即将进入专家评审阶段。本届...
小米YU7首战Model Y八... 快科技5月21日消息,今晚小米人车家全生态新品发布会上,雷军宣布正式推出小米YU7标准版,售价23....
小米跑车级SUV YU7 GT... 记者|李星 编辑|陈柯名 裴健如 杜恒峰 校对|程鹏 5月21日晚间,小米YU7 GT正式上市,售价...
霍尔木兹海峡封锁 日本原油进口... 据日本共同社5月21日报道,日本财务省21日公布4月贸易统计初值(通关口径)显示,从中东进口原油38...
鲍威尔任内最后一次会议纪要公布... 当地时间5月20日,美国联邦储备委员会公布的4月货币政策会议纪要表明,如果美国通胀持续高于目标水平,...
晚间开售,非标提价,茅台改革进... 出品|中访网 审核|李晓燕 5月18日,贵州茅台接连抛出两大市场动作,瞬间搅动白酒行业神经。继5月1...
海关律师、走私辩护律师邵丹:罗... 近日,罗湖海关查获旅客走私红酒3支。 某日,罗湖海关关员在对进境旅客进行监管时,发现一名男性旅客进...
原创 三... 目前全球所有的电子产品中,涨的最猛的,就是内存。 最近一年以来,平均涨了四五倍,内存厂商们是大赚特赚...
长鑫科技科创板IPO将于5月2... 观点网讯:5月20日,据上交所网站披露,上交所上市审核委员会定于5月27日召开2026年第27次上市...
345.68亿!上海S基金交易... 来源:看看新闻KNEWS 日前,由上海股权托管交易中心、上海科创中心股权投资基金管理有限公司联合主办...