改名!从Yi改回LLaMA,李开复的零一万物回应开发者质疑
admin
2023-11-15 17:38:57
0

近日,开发者群体正热议一款基于开源模型更换张量(Tensor)名字的话题。研究者认为零一万物近期发布的Yi-34B 模型基本上采用了 LLaMA 的架构,只是重命名了两个张量。


11月6日,零一万物创始人及CEO李开复带队创办的AI 2.0公司零一万物,正式发布首款开源预训练大模型 Yi-34B。此次零一万物开源发布的Yi系列模型,包含34B和6B两个版本。其中开源的Yi-34B模型将发布全球最长、可支持200K 超长上下文窗口(context window)版本,可以处理约40万汉字超长文本输入。

在零一万物Huggingface社区中,有开发者质疑并向零一万物研发团队发去邮件,称除了两个张量(具体是input_layernorm与post_attention_layernorm)被重命名之外,Yi 完全使用了LLaMA的架构。

LLaMA全称为 "Large Language Model Meta AI",是 Meta 创建的大语言模型。今年 7 月,Meta发布了LLaMA2,宣布完全开源,并可免费商用。

针对该质疑邮件,零一研发团队方面进行了回应,回应邮件内容显示“你关于张量(tensor)的观点是正确的,我们也如你所建议的,将对其重命名,从Yi改回LLaMA,零一也将发布改名后的新版本。”


零一研发团队表示,命名问题确实是己方疏忽所致,由于大量训练试验进行重命名,在推出发行版本之前也没有将其改回来,这是己方的错,并表示抱歉造成了混乱。零一团队表示,正在努力加强流程,不会再发生类似失误。

行外人关注大模型的点在于是否有原创性,对开发者而言,更关注的是大模型的适配工作。

研究人士在帖子中称,“Yi的代码更改并没有通过Pull Request(GitHub开发者社区代码提交术语)的方式提交到Transformers项目中,而是以外部代码的形式附加上去,这可能存在安全风险或不被框架所支持的问题。HuggingFace排行榜甚至不会对这个上下文窗口最高可达200K的模型进行基准测试,因为其没有自定义代码策略。零一声称其是32K模型,但被配置为4K模型,没有RoPE伸缩配置,也没有解释如何伸缩。”

11月14日,阿里巴巴前副总裁、AI框架领域专家贾扬清发朋友圈感慨做小公司不容易,希望国内企业如果是开源的模型结构,不要改换名字,以免令他人为其多做适配工作。他也提到,有厂商的新模型实际就是LLaMA架构,但为了显得不一样,将代码里的名字从LLaMA改成了自己的名字,并换了几个变量名,但未提及具体厂商姓名。

对于Yi大模型对张量的更名,零一万物方面对第一财经记者回应称:GPT是一个业内公认的成熟架构,LLaMA在GPT上做了总结。零一万物研发大模型的结构设计基于GPT成熟结构,借鉴了行业顶尖水平的公开成果,由于大模型技术发展还在非常初期,与行业主流保持一致的结构,更有利于整体的适配与未来的迭代。同时基于零一万物团队对模型和训练的理解做了大量工作,也在持续探索模型结构层面本质上的突破。


零一方面称,模型结构仅是模型训练其中一部分。Yi 开源模型在其他方面的精力,比如数据工程、训练方法、baby sitting(训练过程监测)的技巧、hyper parameter设置、评估方法以及对评估指标的本质理解深度、对模型泛化能力的原理的研究深度、在AI infra(基础设施)方面的能力等,投入了大量研发和打底工作,这些工作往往比起基本结构能起到更大的作用跟价值,这些也是零一万物在大模型预训练阶段的核心技术护城河。

当模型架构渐成行业通用,商用授权保护也越来越多引起关注。零一方面告诉记者,商用授权保护的是LLaMA的参数,Yi 开源模型从零开始训练,其模型参数和参数获得过程和LLaMA无关,故不需要商用授权。

行业人士认为,Yi模型的开发初衷实际是为了应对国内无法访问OpenAI与谷歌大模型的障碍,开发针对中国市场以及中文语言环境的LLM(Large Language Model,大语言模型)生态,让开发者轻松使用其LLM应用程序。

一位人工智能领域专家对记者表示,开源本身是非常有意义的,但基于开源从事大模型研发工作,他并不看好国内创业公司的未来,在其看来国内大模型更大机会在于资金充沛的大公司,但小公司密集涌入竞争的好处,在于为行业培养了更多人工智能与大语言模型领域的人才。未来国内赛道更大的机会还是在应用层方面。

相关内容

热门资讯

悦康药业递表港交所,“一药双价... 12月29日,悦康药业(沪市代码:688658)向港交所递交上市申请,保荐机构为中信证券。 资料显示...
沪指日线九连阳 商业航天持续爆... 长沙晚报掌上长沙12月30日讯(全媒体记者 周丛笑)今天三大指数集体低开,沪指低开0.44%,深成指...
原创 这... 美国昔日荣光,中国今日腾飞 上世纪五十年代到七十年代初,美国那时候的工业牛气冲天,工厂遍地开花,生...
宿松中信博:点亮皖江新能源发展... 来源:滚动播报 (来源:市场星报) 当绿色发展的浪潮席卷江淮大地,安徽省正以新能源产业为笔,勾勒着...
柠萌影视2025年度报告:多赛... 主编温静导读:2025年是柠萌影视实现战略突破与盈利改善的关键一年,通过在长剧、短剧、海外业务的协同...
「寻芯记」紫光国微欲“收编”瑞... 本报(chinatimes.net.cn)记者石飞月 北京报道 国内半导体并购潮可谓此起彼伏。12月...
和讯投顾王海洋:目前到了短线关... 12月30日,和讯投顾王海洋称,大盘低开高走但反抗乏力,需谨防指数中阴回调。昨天就提到,今天大盘若低...
《中华人民共和国增值税法实施条... 新华社北京12月30日电 国务院总理李强日前签署国务院令,公布《中华人民共和国增值税法实施条例》(以...
中国国有企业全球化:合作共赢与... 2025年,全球化发展进入一个新的时期。贸易保护主义加剧,一些国家更加强调“保护本国”的经贸政策,全...
2026国补来了!京东线上线下... 12月30日,国家发展改革委、财政部印发的《关于2026年实施大规模设备更新和消费品以旧换新政策的通...
“总部企业经济技术国际合作发展... 2025年12月29日,“总部企业经济技术国际合作发展大会”在东方雨虹总部研发基地举行。作为中国国际...
华誓视联体战略解码:深度技术+... 近日,中国眼视光行业迎来一个可能重塑未来格局的战略发布——“华誓国民视觉健康管理视联体”(下称“华誓...
广州携手“大湾鸡”迎新年!杰森... 12月28日,广州白云山云台花园迎来一场别开生面的“生日会”——“萌动广州‘大湾鸡’迎新年”主题发布...
两部门发文明确广告费和业务宣传... 财政部 税务总局 关于广告费和业务宣传费支出税前扣除有关事项的公告 财政部 税务总局公告2025年第...
行业ETF美股盘初多数走低,可... 行业ETF美股盘初多数走低,可选消费ETF、生物科技指数ETF跌超0.4%,网络股指数ETF跌约0....
英矽智能正式登陆港交所:AI制... 业务遍布全球的AI驱动生物科技公司。 据IPO早知道消息,InSilico Medicine Cay...
原创 茂... 雷达财经出品 文|周慧 编|深海 近日,一起高达23亿元的诉讼索赔,将锂电龙头企业欣旺达摆到了聚光灯...
“物理AI第一股”上市港交所!... 12月30日北京五一视界数字孪生科技股份有限公司上市。 12月16日北京昂瑞微电子技术股份有限公司上...
新生代人工智能企业为何格外“抢... 在2025年的尾声,科技圈被一则收购消息刷屏:截至2025年12月30日市值超过1.6万亿的美国科技...