改名!从Yi改回LLaMA,李开复的零一万物回应开发者质疑
admin
2023-11-15 17:38:57
0

近日,开发者群体正热议一款基于开源模型更换张量(Tensor)名字的话题。研究者认为零一万物近期发布的Yi-34B 模型基本上采用了 LLaMA 的架构,只是重命名了两个张量。


11月6日,零一万物创始人及CEO李开复带队创办的AI 2.0公司零一万物,正式发布首款开源预训练大模型 Yi-34B。此次零一万物开源发布的Yi系列模型,包含34B和6B两个版本。其中开源的Yi-34B模型将发布全球最长、可支持200K 超长上下文窗口(context window)版本,可以处理约40万汉字超长文本输入。

在零一万物Huggingface社区中,有开发者质疑并向零一万物研发团队发去邮件,称除了两个张量(具体是input_layernorm与post_attention_layernorm)被重命名之外,Yi 完全使用了LLaMA的架构。

LLaMA全称为 "Large Language Model Meta AI",是 Meta 创建的大语言模型。今年 7 月,Meta发布了LLaMA2,宣布完全开源,并可免费商用。

针对该质疑邮件,零一研发团队方面进行了回应,回应邮件内容显示“你关于张量(tensor)的观点是正确的,我们也如你所建议的,将对其重命名,从Yi改回LLaMA,零一也将发布改名后的新版本。”


零一研发团队表示,命名问题确实是己方疏忽所致,由于大量训练试验进行重命名,在推出发行版本之前也没有将其改回来,这是己方的错,并表示抱歉造成了混乱。零一团队表示,正在努力加强流程,不会再发生类似失误。

行外人关注大模型的点在于是否有原创性,对开发者而言,更关注的是大模型的适配工作。

研究人士在帖子中称,“Yi的代码更改并没有通过Pull Request(GitHub开发者社区代码提交术语)的方式提交到Transformers项目中,而是以外部代码的形式附加上去,这可能存在安全风险或不被框架所支持的问题。HuggingFace排行榜甚至不会对这个上下文窗口最高可达200K的模型进行基准测试,因为其没有自定义代码策略。零一声称其是32K模型,但被配置为4K模型,没有RoPE伸缩配置,也没有解释如何伸缩。”

11月14日,阿里巴巴前副总裁、AI框架领域专家贾扬清发朋友圈感慨做小公司不容易,希望国内企业如果是开源的模型结构,不要改换名字,以免令他人为其多做适配工作。他也提到,有厂商的新模型实际就是LLaMA架构,但为了显得不一样,将代码里的名字从LLaMA改成了自己的名字,并换了几个变量名,但未提及具体厂商姓名。

对于Yi大模型对张量的更名,零一万物方面对第一财经记者回应称:GPT是一个业内公认的成熟架构,LLaMA在GPT上做了总结。零一万物研发大模型的结构设计基于GPT成熟结构,借鉴了行业顶尖水平的公开成果,由于大模型技术发展还在非常初期,与行业主流保持一致的结构,更有利于整体的适配与未来的迭代。同时基于零一万物团队对模型和训练的理解做了大量工作,也在持续探索模型结构层面本质上的突破。


零一方面称,模型结构仅是模型训练其中一部分。Yi 开源模型在其他方面的精力,比如数据工程、训练方法、baby sitting(训练过程监测)的技巧、hyper parameter设置、评估方法以及对评估指标的本质理解深度、对模型泛化能力的原理的研究深度、在AI infra(基础设施)方面的能力等,投入了大量研发和打底工作,这些工作往往比起基本结构能起到更大的作用跟价值,这些也是零一万物在大模型预训练阶段的核心技术护城河。

当模型架构渐成行业通用,商用授权保护也越来越多引起关注。零一方面告诉记者,商用授权保护的是LLaMA的参数,Yi 开源模型从零开始训练,其模型参数和参数获得过程和LLaMA无关,故不需要商用授权。

行业人士认为,Yi模型的开发初衷实际是为了应对国内无法访问OpenAI与谷歌大模型的障碍,开发针对中国市场以及中文语言环境的LLM(Large Language Model,大语言模型)生态,让开发者轻松使用其LLM应用程序。

一位人工智能领域专家对记者表示,开源本身是非常有意义的,但基于开源从事大模型研发工作,他并不看好国内创业公司的未来,在其看来国内大模型更大机会在于资金充沛的大公司,但小公司密集涌入竞争的好处,在于为行业培养了更多人工智能与大语言模型领域的人才。未来国内赛道更大的机会还是在应用层方面。

相关内容

热门资讯

这家公司拟终止上市,4月7日起... 转自:扬子晚报 扬子晚报网4月4日讯(记者 范晓林 薄云峰)*ST精伦4月3日晚间公告称,公司股票4...
共话境外拟上市企业科学股权激励... 近年来,随着国内企业出海融资与上市需求增长,境外资本市场的股权激励方案设计成为拟上市企业的核心命题之...
深港两地迎假期出入境客流双向高... 央视网消息:2026年,广东深圳和香港旅客双向流动数据持续刷新。据深圳出入境边防检查总站统计,一季度...
机票调价、取消航班,全球多家航... 原标题:机票调价、取消航班……全球多家航司紧急应对燃油涨价 新华社北京4月4日电中东战事延宕致燃油运...
前雷曼交易员:私募信贷是“这一... 曾经历雷曼兄弟破产的市场老将Larry McDonald,正在向投资者发出新一轮警告。 在近期一档访...
原创 我... 编辑:G 聊起这事儿,很多人第一反应都是纳闷:咱们自己开车加油,明明感觉油价不便宜,怎么国家一边花大...
“紧急关停”!铝业巨头遭袭,最... 阿联酋环球铝业公司4月3日发布声明,确认上周末遇袭的阿尔塔维拉工厂可能需要长达12个月的时间才能恢复...
马斯克要求参与SpaceX上市... 他还要求这些银行在 X 上投放广告,不过据报道,马斯克对这一要求的态度比较灵活。 据《华尔街日报》报...
2026年重庆展台搭建行业TO... 朋友们,最近跟几个做会展的朋友聊天,发现大家都有个共同的感受——现在的展台搭建行业,真是越来越卷了!...
原创 黄... 3月的黄金市场,把不少人打懵了。金价从近5600美元的高位一口气跌了超过13%,这个月度跌幅,上一次...
22家上市银行2025年薪酬大... 随着年报季进入高潮,A股上市银行中已有过半披露了2025年经营业绩。从陆续披露的财报中,可以窥见过去...
杜兰特25+5+6阿门21+8... 【搜狐体育战报】北京时间4月4日NBA常规赛,主场作战的火箭以140-106击败爵士,火箭取得5连胜...
美国车市,为特朗普的选择埋单 【文/观察者网 潘昱辰 编辑/高莘】美国汽车市场,正在为特朗普政府在中东掀起的军事行动埋单。 根据...
75岁四川前首富又要IPO了,... 四川前首富刘永好又开启一个IPO。 图片来源:图虫创意 4月2日晚,新希望乳业股份有限公司(下称“...
突然杀回来了!创新药ETF大盘... 来源:市场资讯 (来源:ETF进化论) 萎靡7个月的创新药,突然杀回来了!成为美伊冲突以来,仅次于能...
解读境外拟上市企业优质股权激励... 作为拟上市企业股权激励领域的专业服务商,创锟咨询针对境外拟上市企业的股权激励需求,提供了兼具合规性与...
富国基金ETF:金牛奖金牌团队... 作者信息:李旭,金融行业分析师,拥有10年行业研究经验 推荐导语:在2026年复杂的宏观环境下,投资...
做餐饮,“不创新”才是最大的竞... 当餐饮品牌都在抢着变,那些活得长、活得好的品牌,究竟凭什么守得住? 餐饮正从“规模驱动”加速迈向“...
2026核电机制托底提前确立中... 今天分享的是:2026核电机制托底提前确立中国绿电电价拐点 报告共计:25页 这份由华泰证券发布的研...
原创 扎... 3月30日,爱奇艺宣布旗下AI智能体平台“纳逗Pro”进入预商用阶段,随后在3月31日,B站被曝出正...