当大模型公司都在卷大参数,面壁智能却在尽可能把参数做小 当大模型公司都在卷大参数,面壁智能却在尽可能把参数做小
admin
2024-02-04 14:57:47
0


做小参数模型背后,不仅挑战模型训练技术,更有深远的现实和商业意义。


作者 | 幸芙
编辑| 靖宇

在通往 AGI 的路上,绝大多数公司的路线是不断做大参数,但面壁智能却走了一条相反的路线——尽可能把模型参数做小。

2 月 1 日,面壁智能推出了只有 2B(注:20 亿)参数量级的模型 MiniCPM,而其性能却超过了大参数模型 Mistral-7B(法国大模型公司 Mistral 旗下知名模型)、且部分超越 Llama-13B(Meta 旗下知名开源大模型)等,内部称之为「以小博大」。

这个结果揭露了这样一个事实:很多超大参数的大模型,它们的模型效率或许并没有最大化。

「我们希望探索模型性能的天花板。」面壁智能联合创始人刘知远教授称。他认为,从技术研判而言,2023 年 ChatGPT 和 GPT-4 的推出,表明大模型技术路线已经基本确定,接下来就是要探索其科学机理,并极致地优化效率。

他表示,在 Mistral-6B 的同一模型水平下,面壁智能团队的模型参数量是最小的。这或许意味着模型的效率被提升到了最高水平。「我觉得我们做了一件挺牛的事。」他笑着说。


MiniCPM 在多项主流评测榜单、中英文平均成绩超越 Mistral-7B | 图片来源:面壁智能

面壁智能成立于 2022 年,由清华 NLP 实验室的刘知远副教授带头成立。这是国内最早研发大模型的团队之一,早在 2020 年,团队就发布了全球首个 20 亿级中文开源大模型 CPM。直到去年 4 月,面壁智能接受了知乎投资,不久后知乎 CTO 李大海成为面壁智能 CEO。这家公司开始完成从学术界到商业界的转身。(见极客公园专访 )

此次面壁智能做小参数模型背后,不仅是为了挑战模型训练技术,更有深远的现实和商业意义。

更小的参数意味着更低的部署门槛、更低的使用成本——这意味着它能在手机等终端上运行,甚至仅靠一块 CPU 就能运载,面壁智能因此将 MiniCPM 称为端侧大模型——它带来的意义是,模型能被更广大人群应用、也有更好的商业化前景。

「无论是面壁还是清华 NLP 实验室,我们的梦想就是实现 AGI(通用人工智能)。任何完成这个目标需要做的,就是我们要做的事情。」关于 MiniCPM 背后的思考决策,刘知远如此说道。

01

模型训练

不再「玄学」

面壁团队之所以尝试「以小博大」路线,跟 Mistral-7B 有些渊源。

去年 9 月,刚发布的 Mistral 7B 是「以小博大」的标杆之作:它只有 7B 大小,却击败了参数量大得多的 Llama(注:所有基准测试中均优于 Llama 2 13B、并在许多基准测试中均优于 Llama 1 34B)。这引起了整个大模型行业的广泛关注。刘知远说,自此之后他心里就种下种子,希望让团队也尝试一下模型「以小博大」。

这极其考验模型的训练技术和效率。

一直以来,大模型的训练过程被戏称为「炼丹」:核心是加大参数,整个训练过程却难以捉摸、全凭感觉,很少沉淀为科学系统的训练技术——不过,各大模型团队都在为此努力,希望将自家的训练技术从「玄学」变成「科学」。

面壁智能也在做这样的尝试。2023 年,团队做了上千次的「沙盒实验」(注:在拟真测试环境下,通过控制变量等方法,找到模型训练背后的科学原理和规律),对大模型的训练机理有了较为深刻的理解。「就像造飞机需要空气动力学的支持,我们团队致力于把大模型的研究科学化。」刘知远说。

这也是他想研发 MiniCPM 的重要原因,「我想检验一下我们(总结)的训练科学,是不是真的科学。」他说。


面壁智能模型「沙盒试验」| 图片来源:面壁智能

结果验证了他的期待。仅通过两周的训练,MiniCPM 就成功实现了以小博大。这证明了团队的训练技术符合一定科学。刘知远称,此次结果是过往沙盒实验「厚积薄发」的结果。「我们希望通过 MiniCPM 让大家认识到,即使 2B 尺寸大模型的效果极限,还没有被充分挖掘出来,这是一个科学问题也是一个技术问题,需要大家共同探索。」他说。

目前,面壁智能团队已将 MiniCPM 背后的训练方法、过程写成文章,发布到 Github 上。

当然,除了训练技术本身,其他的要素也很重要——比如优质数据集、Infra(AI 基础设施层的软件) 等。此次,面壁智能仅靠 1TB 的精选数据训练就完成了模型的「以小博大」,当问到数据的来源是否跟知乎有一定关系时,「知乎起了很重要的作用,但最终还是算法自动选取的结果。」李大海对极客公园说。

Infra 方面,面壁智能表示,团队全流程优化加速工具套件平台,可以实现 10 倍推理加速,90% 成本降低。


或许因为诸多因素才研发出了 MiniCPM,所以团队并不担心公开训练的方法、过程。「模型的训练方法很多是内化的经验,不一定对着一个已有的论文就能训出好模型,这些经验可能会是一种壁垒。」MiniCPM 的模型训练负责人、面壁智能研究员胡声鼎说。

02

端侧小模型,

「直供」手机厂

作为一款小参数模型,MiniCPM 能部署在手机等终端设备上,主要被定位为端侧模型。目前,MiniCPM 已跑通了国际主流手机品牌和终端 CPU 芯片。

为什么有了云端模型,依然要端侧模型?从用户的角度来说,假设遇到极端的断网等情况(面壁团队现场举了户外探险的例子),用户依然可以通过端侧模型获得服务。这实际上拓宽了用户使用模型的场景。


MiniCPM 可搭载的手机型号 | 图片来源:面壁智能

而从开发者的角度来说,端侧模型能帮助他们减轻算力负担、降低算力成本。

以算力负担为例,李大海称假设大模型领域出现了超级应用,需要成百上千万人同时在线,用户都在云端使用模型的话,算力带宽和成本,对于创业团队来说都将难以承受。

以算力成本为例,李大海现场用一台搭配骁龙 855 芯片(高通于 2018 年推出手机芯片)的手机做了一道数学题。按照运行 5 年计算,每秒 7.5 tokens,那么 170 万 tokens 的推理成本仅需人民币 1 元,成本仅为 Mistral-Medium 的百分之一。

刘知远认为,未来大模型一定是云端共存、协同的模式——就像人类的智能需要分布于大脑、小脑,未来的大模型的智能也会分布于云、端——它们各有不同的分工,就像大脑负责高级智能、小脑负责基础智能一样,未来大模型的高级智能将由云端实现,而基础智能将由终端实现。

自去年 7 月以来,大模型上终端一直是行业普遍趋势。荣耀、华为、小米、OPPO、vivo 等手机厂商均推出了自己的终端大模型。当问到相比手机厂商,面壁智能做终端大模型的优势是什么时,李大海称未来如果云端需要联动,由同一个模型厂商做会更高效。

目前,面壁正在跟许多终端厂商沟通,探讨将 MiniCPM 这款小模型落地的可能。


面壁智能 CEO 李大海、联合创始人兼首席科学家刘知远 | 图片来源:面壁智能

如果说云端模型主要卖的是 API 调度费、解决方案,那么端侧模型的商业模式或有所不同——李大海表示,目前 MiniCPM 已经开源、经授权后可商用,未来将主要从模型授权费中获取商业收入。「端侧模型有端侧模型的落地模式和场景,(云端)大模型有(云端)大模型的落地模式和场景。」他说。

和 Meta 一样,面壁也是将 MiniCPM 这样的端侧大模型和其它规模较小的大模型开源,将旗下 CPM-Cricket 等千亿大模型闭源。目前,面壁智能的模型收入主要来自 B 端,主要集中在金融、营销等领域,目前已有招商银行、易车网、义乌小商品集团等客户。

谈及面壁智能未来的发展规划,李大海称,一方面是继续加强模型能力,无论是小模型还是大模型,并在此基础之上继续探索 Agent、上层应用的发展。另一方面则是探索落地和商业化。

「说实话我对我们的模型技术能力有信心,所以未来我们的重心会放在商业化上。」他说。

*头图来源:面壁智能

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问

面壁智能是如何实现

模型训练的科学化和高效化


刚刚,马斯克在 X 上发布了特斯拉人形机器人 Optimus 走路的最新视频。

点赞关注极客公园视频号

相关内容

热门资讯

“低招低裁”格局稳固劳动力市场... 智通财经APP获悉,美国上周初请失业金人数在经历前一周回落至近几十年来最低水平后出现小幅反弹,表明尽...
刚刚,纳指冲破26000点,创... 记者|杜宇 编辑|何小桃 杜恒峰 校对|陈俊杰 5月7日晚,纳斯达克综合指数向上触及26000点,创...
美股芯片股,集体下跌 新闻荐读 5月7日,美股三大指数小幅高开,道指涨0.3%,纳指涨0.15%,标普500指数涨0.09...
DeepSeek 估值 450... DeepSeek 首轮融资曝光,估值 450 亿美元 据《金融时报》报道,多家机构目前正寻求领投 D...
焦点复盘沪指缩量收涨录得日线六... 财联社5月7日讯,今日100股涨停,31股炸板,封板率76%。金螳螂12天10板,中国长城、福达合金...
全球的“聪明钱”正集体涌入这7... 来源:虎嗅APP 当我们在谈论美股的“科技七姐妹”(Magnificent Seven)时,一场更...
单季亏超10亿元、偿付能力告急... 2026年一季度,幸福人寿保险业务收入97.38亿元,同比增长17.31%,跑赢了行业平均增速。但净...
债券市场“科技板”开闸一年:浙... 2025年10月29日,对绍兴越城区的芯联集成而言颇为特别。这家为汽车、新能源、工控、家电等领域提供...
原创 4... 最近家人嚷着要去露营,我起初还以为他们是想凑凑热闹,直到在朋友圈刷到一组照片改变了我的看法:重庆老家...
连板引爆资金追捧 中国长城关联... 【导读】连板引爆资金追捧 中国长城关联交易骤增的深层逻辑 见习记者 刘墨 进入5月,中国长城(000...
交易笔数大增 从支付数据看假期... 消费市场活力十足,尽显中国经济强劲韧性。中国人民银行5月6日发布的数据显示,今年“五一”假期支付交易...
潮评丨豆包分层付费背后:AI的... 潮新闻客户端 特约评论员 陈白 图源:视觉中国 近日,#豆包付费#的话题迅速登上微博热搜榜首,引发...
星空卫视明日停播 5月6日,星空卫视官方微博发布公告,正式宣告因运营陷入困境,卫星合作方已通知该频道将于5月8日暂停卫...
欧盟计划将中国可再生能源设备制... 【日前,欧盟宣布禁止欧洲银行为含有来自不可靠“供应商”关键部件的可再生能源项目提供融资。尽管在“不可...
原创 脸... 在俄乌冲突爆发之初,日本便迅速锁定立场,紧随西方盟友脚步,在极短时间内连发多轮对俄制裁。这一举动让俄...
洲际油气刚被“ST”,控股股东... 刚刚过去的“五一”假期,对ST洲际(SH600759,股价4.22元,市值175.09亿元)的投资者...
华泰证券:消费新格局下的赛事经... 来源:华泰睿思 核心观点 2026年是“十五五”开局之年,促进服务业消费是今年较为清晰的一条政策主线...
土耳其主要银行业指数上涨3% 每经AI快讯,5月7日,土耳其主要银行业指数上涨3%。 每日经济新闻
食品饮料分化,岂是业绩这么简单... 本篇为大家准备了5条要闻,涵盖行业、新股、海外市场等多个维度,方便大家快速get核心信息。一、要闻导...
550 亿美元!马斯克的「芯片... 当最大的 AI 算力消费者决定自己建芯片厂,这件事的意义已经超出了商业范畴。 作者|桦林舞王 编辑|...