免费、SOTA、中文,微软卷出了新高度 免费的微软 免费微软系统
admin
2024-02-10 10:09:55
0


出品 | 虎嗅科技组

作者 | 杜钰君

编辑 | 王一鹏

头图 | 摄图网

碾压谷歌的GeminiPro和阿里的Qwen-VL-Plus,与GPT-4V正面硬刚,这个有着SOTA级别性能的多模态大模型真正做到了“人无我有,人有我优”。

继2023年4月的初级版本、2023年10月的LLaVA-1.5之后,2024年1月31日,微软研究院又联合威斯康星大学麦迪逊分校和哥伦比亚大学的研究者共同发布了多模态大模型LLaVa(LargeLanguageandVisionAssistant)的1.6版本。与GPT-4V只提供API接口的闭源经营理念不同,LLaVA1.6的代码、模型与训练数据全开源,且在标准评测数据集上跑出了较为亮眼的成绩。

一、LLaVA1.6:卷上加卷

LLaVA是一种端到端训练的大型多模态模型,又被称为“大型语言和视觉助手”。LLaVa-1.6是微软LLaVa系列的第三个迭代版本。升级后的LLaVa-1.6可谓buff叠满:SOTA级别的性能,低训练花销,多模态的内容生成能力和再一次将开源大模型卷上了新高度。

根据LLaVa-1.6官网的标准评测数据集,该模型的表现超越了Qwen-VL-Plus、CogVLM和Yi-VL等一众模型,在大部分数据集上的表现都优于GeminiPro,在Math-Vista、MMB-ENG等部分数据集上的表现甚至胜于GPT-4V,成为了开源模型中的“性能王者“。


图片来源:LLaVA-1.6官网的标准评测数据

在不拘泥于单一模态的内容生成,具有Text-to-Text和Image-to-Text两种模式的同时,LLaVa-1.6的过人之处还在于更低的训练数据成本。LLaVA-1.6能用32个GPU在一天之内完成训练,仅需1.3M条训练数据,其计算和训练数据比其他模型小100到1000倍。

除了通过对话式AI生成文本外,LLaVA-1.6还可以识别图片信息并转化成文字答案。升级后的LLaVa-1.6对输入图像的分辨率提升到原来的4倍以上,使得模型能够抓住图片的更多细节。目前支持的图像分辨率有672x672、336x1344以及1344x336三种。

LLaVA模型架构基于大量的图像-文本配对的数据集,将预训练的CLIP视觉编码器与大型语言模型(Vicuna)通过映射矩阵相连接,来实现视觉和语言特征的匹配。根据该模型的研发团队成员HaotianLiu在X平台的介绍,此增强版本建立在其前身的简约设计和数据效率基础上,并通过改进视觉指令数据集和SGLang,提升了“推理、OCR等方面的性能”,意味着人类向AGI(通用人工智能)探索的道路上又迈进了一步。


LLaVA-1.6的研发团队成员HaotianLiu在X平台发文原文

二、更适合中国人体质的GPT-4V

在奋力追平GPT-4V的同时,LLaVa-1.6也展现出强大的零样本中文能力。

LLaVa-1.6不需要额外训练便具备杰出的中文理解和运用能力,其在中文多模态场景下表现优异,使得用户不必学习复杂的“prompt”便可以轻松上手,这对于执行“免费(限制文本长度、使用次数等)+付费会员”制的文心一言们而言无疑提出了新的挑战。

笔者在对LLaVa-1.6模型的demo进行尝试时发现,LLaVa-1.6对古诗词等具有中文语言特色的文本内容理解也较为到位,且能给出中上水平的答案。因而对于有图生文或文生文需求的用户而言,LLaVa-1.6模型不失为更适合中国人体质的GPT-4V。


图片来源:笔者在文心一格平台的使用截图

更强的视觉对话能力使得LLaVa-1.6的智能服务可以覆盖更多元的场景、具有更强的常识和逻辑推理能力。


图片来源:用户在X平台对LLaVA-1.6的试用截图

在上图的应用场景中,用户发给LLaVA-1.6一张机票,询问与之相关的接机和日程安排。LLaVA-1.6不仅准确的估计了驾驶时间,还考虑到了可能堵车的情况,颇具一个“智能管家”的自我修养。


图片来源:用户在X平台对LLaVA-1.6的试用截图

为了促进多模态大模型社区的发展,开发者们开源了LLaVa-1.6的全部代码、训练数据和模型。这无疑有益于人工智能开发的透明度和协作。在较小训练样本和开源的前提下,如果可以基于本地数据训练专业模型,推动解决当前大模型基于云的产品的责任和隐私问题。

不难发现,轻量化的训练数据是LLaVa-1.6与其他多模态大模型不同的关键一点。一直以来,成本的高企便是横亘在大模型训练面前的一大难题。随着大模型赛道越来越卷,研发者们开始将关注点从性能转向成本,在关注大规模参数量的同时着力降低模型的运算和推理成本,实现模型压缩化和计算高效化。

相关内容

热门资讯

黄红日就任民生银行首席合规官 上证报中国证券网讯(记者 张琼斯)民生银行5月8日发布的关于首席合规官任职资格获国家金融监督管理总局...
文化和旅游部公布2026年第二...   原标题:旅游市场强制消费问题典型案例(2026年第二批)   “纠治旅游行业导游乱象、强制消费等...
7室5厅6卫,恒大原总裁豪宅被... 近日,广州市天河区清风南街11号的一套428平方米复式楼,被广州天河区人民法院在阿里法拍网挂拍,起拍...
原创 6... 俄罗斯于5月9日在莫斯科红场举行的反法西斯战争胜利81周年阅兵仪式吸引了全球的目光。这不仅仅是一场军...
庆祝5·12国际护士节系列活动... 新闻 为庆祝5·12国际护士节,我院护理部组织各专业护理骨干开展系列护理健康科普义诊活动。 庆祝护士...
合肥贵金属回收商家深度测评:资... 一、行业背景与测评方法论 据《2025年中国二手奢侈品及贵金属回收市场白皮书》数据显示,2025年全...
2026国内正规现货黄金交易平... 步入2026年第二季度,全球货币政策的转向与地缘经济的重构,使得现货黄金的避险属性再度成为财富管理的...
原创 谁... 老清我最近翻了翻股市榜单,发现个挺有意思的事儿:中国最值钱的有色金属公司紫金矿业,巅峰时市值接近万亿...
伯希和更名奔赴自然,再战港股I... 亿欧获悉,5月8日,奔赴自然户外运动集团股份有限公司向港交所递交更新后的招股申请文件,中金公司、中信...
融资节奏提速,伟测科技从11.... 5月9日,伟测科技(688372)发布向不特定对象发行可转换公司债券预案。公司拟发行可转债总额不超过...
美银大幅修正预期:美联储不太可... 【美银大幅修正预期:美联储不太可能在2027年前降息】财联社5月9日电,根据美国银行的最新预测,美联...
阶跃星辰,融资25亿美元,拟提... 来源:瑞恩资本RyanbenCapital 综合消息,「AI六小虎」之一、国产大模型公司阶跃星辰(...
精准服务民营经济高质量发展,深... 深圳商报·读创客户端首席记者 王海荣 5月9日下午,深圳市2026年服务民营经济系列活动——“宝企金...
聚焦长时储能与全球化布局——海... 2026年5月7日上午,位于重庆铜梁的海辰储能基地迎来了一批来自全国各地的媒体。海辰储能联合创始人、...
李开复筹划赴港上市?大模型零一... 又一家国产大模型即将赴港IPO?5月9日,有消息称,李开复创办的零一万物正在进行Pre-IPO融资,...
原创 低... 2020 年开年,反垄断的矛头指向外卖行业,曾经风靡一时的奶茶零元购、百亿补贴,似乎正在成为历史。这...
无问芯穹再获超7亿融资 CEO... 雷递网 乐天 5月7日 无问芯穹今日宣布此前已再获超7亿元融资,联合领投方为杭州高新金投集团和惠远资...
原创 目... 对于高房价这个事情,这几年似乎很少人提了,过去大家都提到高房价是最强的避孕药! 对于这种说法,其实很...
突发!投资大佬,清仓式减持AI... 在“美股七姐妹”中,微软有一个独一无二的纪录:连续25年稳居标普500指数前十权重股。 如今,它却要...
CEO已癫!醉心造车的追觅:会... “这是抖音的极限,不是我的极限。”每天狂发75条短视频的追觅创始人俞浩,认为平台规则限制了他的发挥。...