谷歌MIT最新研究证明:高质量数据获取不难,大模型就是归途 谷歌通过混合专家系统构建大模型 谷歌研究最新一期
admin
2024-01-12 16:21:46
0


新智元报道

编辑:桃子

【新智元导读】数据获取最新解,便是从生成模型中学习。

获取高质量数据,已经成为当前大模型训练的一大瓶颈。

前几天,OpenAI被《纽约时报》起诉,并要求索赔数十亿美元。诉状中,列举了GPT-4抄袭的多项罪证。

甚至,《纽约时报》还呼吁摧毁几乎所有的GPT等大模型。


一直以来,AI界多位大佬认为「合成数据」或许是解决这个问题的最优解。


此前,谷歌团队还提出了用LLM代替人类标记偏好的方法RLAIF,效果甚至不输人类。


现如今,谷歌MIT的研究人员发现,从大模型中学习可以得到使用真实数据训练的最佳模型的表征。

这一最新方法称SynCLR,一种完全从合成图像和合成描述学习虚拟表征的方法,无需任何真实数据。


论文地址:https://arxiv.org/abs/2312.17742

实验结果表明,通过SynCLR方法学习到的表征,能够与OpenAI的CLIP在ImageNet 上的传输效果一样好。


从生成模型中学习

目前表现最好的「视觉表征」学习方法依赖于大规模的实际数据集。然而,真实数据的收集却有不少的困难。

为了降低收集数据的成本,研究人员本文中提出了一个问题:

从现成的生成模型中采样的合成数据,是否是一条通往大规模策划数据集的可行之路,从而训练出最先进的视觉表征?


与直接从数据中学习不同,谷歌研究人员称这种模式为「从模型中学习」。作为建立大规模训练集的数据源,模型有几个优势:

- 通过其潜在变量、条件变量和超参数,为数据管理提供了新的控制方法。

- 模型也更容易共享和存储(因为模型比数据更容易压缩),并且可以产生无限数量的数据样本。

越来越多的文献研究了生成模型的这些特性和其他优点和缺点,并将其作为训练下游模型的数据源。

其中一些方法采用混合模式,即混合真实数据集和合成数据集,或需要一个真实数据集来生成另一个合成数据集。

其他方法试图从纯粹的「合成数据」中学习表征,但远远落后于表现最好的模型。

论文中,研究人员提出的最新方法,使用生成模型重新定义可视化类的粒度。

如图2所示,使用2个提示生成了四张图片「一只戴着墨镜和沙滩帽的金毛猎犬骑着自行车」和「一只可爱的金毛猎犬坐在寿司做成的房子里」。


传统的自监督方法(如Sim-CLR)会将这些图像视为不同的类,不同图像的嵌入会被分开,而不会明确考虑图像之间的共享语义。

另一个极端是,监督学习方法(即SupCE)会将所有这些图像视为单一类(如「金毛猎犬」)。这就忽略了这些图像在语义上的细微差别,例如在一对图像中狗在骑自行车,而在另一对图像中狗坐在寿司屋内。

相反,SynCLR方法将描述视为类,即每个描述一个可视化类。

这样,我们就可以按照「骑自行车」和「坐在寿司店里」这两个概念对图片进行分组。

这种粒度很难在真实数据中挖掘,因为收集由给定描述的多张图片并非易事,尤其是当描述数量增加时。

然而,文本到图像的扩散模型从根本上就具备这种能力。

只需对相同的描述设定条件,并使用不同的噪声输入,文本到图像的扩散模型就能生成与相同描述相匹配的不同图像。

具体来说,作者研究了在没有真实图像或文本数据的情况下,学习视觉编码器的问题。

最新方法依赖3个关键资源的利用:一个语言生成模型(g1),一个文本到图像的生成模型(g2),以及一个经过整理的视觉概念列表(c)。

前处理包括三个步骤:

(1)使用(g1)合成一组全面的图像描述T,其中涵盖了C中的各种视觉概念;

(2)对于T中的每个标题,使用(g2)生成多个图像,最终生成一个广泛的合成图像数据集X;

(3)在X上进行训练,以获得视觉表示编码器f。

然后,分别使用llama-27b和Stable Diffusion 1.5作为(g1)和(g2),因为其推理速度很快。

合成描述

为了利用强大的文本到图像模型的能力,来生成大量的训练图像数据集,首先需要一个不仅精确描述图像而且展示多样性的描述集合,以包含广泛的视觉概念。

对此,作者开发了一种可扩展的方法来创建如此大量的描述集,利用大模型的上下文学习能力。

如下展示了三个合成模板的示例。


如下是使用Llama-2生成上下文描述,研究人员在每次推理运行中随机抽取三个上下文示例。


合成图像

对于每个文本描述,研究人员都会用不同的随机噪声启动反向扩散过程,从而生成各种图像。

在此过程中,无分类器引导(CFG)比例是一个关键因素。

CFG标度越高,样本的质量和文本与图像之间的一致性就越好,而标度越低,样本的多样性就越大,也就越符合基于给定文本的图像原始条件分布。


表征学习

论文中,表征学习的方法建立在StableRep的基础上。

作者提出的方法的关键组成部分是多正对比学习损失,它的工作原理是对齐(在嵌入空间)从同一描述生成的图像。

另外,研究中还结合了其他自监督学习方法的多种技术。

与OpenAI的CLIP相媲美

实验评估中,研究人员首先进行消融研究,以评估管道内各种设计和模块的有效性,然后继续扩大合成数据的量。

下图是不同描述合成策略的比较。

研究人员报告了9个细粒度数据集的ImageNet线性评估准确性和平均准确性。这里的每个项目包括1000万个描述和每个描述4张图片。


下表是ImageNet线性评估与细粒度分类的比较。

尽管只使用了合成数据,但SynCLR与OpenAI的CLIP和DINO v2模型取得了不相上下的结果。


下表是在相同的合成数据上比较SynCLR和CLIP,可以看出,SynCLR明显优于CLIP。

具体设置为,每个标题生成4个图像,SynCaps-150M为SynCLR和CLIP提供了更好的表示。


PCA可视化如下。按照DINO v2,研究人员计算了同一组图像的斑块之间的PCA,并根据其前3个分量进行着色。

与DINO v2相比,SynCLR对汽车和飞机的绘制的图更为准确,而对能绘制的图则稍差一些。


图6和图7中,分别展示了不同训练规模下的ImageNet线性准确率,以及不同训练参数规模下的精细分类。


为什么要从生成模型中学习?

一个令人信服的原因是,生成模型可以像数百个数据集一样同时运作,能够为策划训练数据提供了一种方便有效的方法。

总而言之,最新论文研究了视觉表征学习的新范式——从生成模型中学习。

在没有使用任何实际数据的情况下,SynCLR学习到的视觉表征,与最先进的通用视觉表征学习器学习到的视觉表征不相上下。

参考资料:

https://huggingface.co/papers/2312.17742


相关内容

热门资讯

开年,“爆款”! 增量资金入市步伐显著加速。 近日,记者从业内人士处获悉,百亿级私募复胜资产发行颇为火热,新发规模单日...
光大证券:热度短期有望延续短期 光大证券研报认为,市场热度仍有望持续,不过需要关注1月中旬之后到春节前市场逐步降温的可能。一方面,政...
马斯克突发!旗下产品或被多国封... 来源:证券时报 马斯克突发。 参考消息援引新加坡《联合早报》网站1月11日报道称,英国加大威胁称,可...
脑机接口获20亿融资 行情里的... 最近刷到条挺实在的新闻——脑机接口领域的"独角兽"强脑科技刚完成20亿融资,投资方里有IDG、华登国...
原创 黄... 今天是2026年1月6日, 人民币计价黄金及中国黄金实物金价走低, 国内金价回落到988.9元/克,...
原创 黄... “前阵子抢都抢不到的黄金,现在居然降价了!”2026开年,持续火热的黄金市场迎来降温,国际现货黄金在...
原创 黄... 2026年1月8日清晨,黄金市场突然上演“高空跳水”。 现货黄金价格一度暴跌超2%,击穿4450美元...
长安银行获国资输血定增百亿补充... 来源:长江商报 长江商报消息 ●长江商报记者 徐佳 陕西省属城商行长安银行股份有限公司(以下简称“...
A股头条:证监会最新发声!推动... 资讯速递 1、国常会:部署实施财政金融协同促内需一揽子政策 国务院总理李强1月9日主持召开国务院常务...
2025年物价低位温和回升 国家统计局发布最新数据显示,2025年12月份,居民消费价格指数(CPI)环比上涨0.2%,同比上涨...
蓝盒子(轩博精酿)正式上市递表... 来源:黄冈新闻网 因抓住了中国啤酒消费升级的结构红利,精酿替换存量工业啤酒大势下,蓝盒子公司(轩博精...
智谱成为全球大模型第一股,外国... 出品|虎嗅科技组 作者|赵致格 编辑|苗正卿 头图|视觉中国 1月8日,北京智谱华章科技股份有限公司...
埃克森石油公司研究重返委内瑞拉... 来源:环球市场播报 埃克森美孚首席执行官达伦-伍兹(Darren Woods)周五表示,美国石油巨头...
原创 特... 一个数据可以翻篇,也可以揭露一场政治与经济的戏码,2025年10月美国对外贸易数字一下子给出了一个让...
五千亿赛道争夺战:中式汉堡如何... 当塔斯汀在2025年以“手擀现烤中国汉堡”的定位闯入万店俱乐部时,国内汉堡市场的竞争格局已然改写。这...
原创 稀... 稀土“卖成白菜价”的那些年,其实一点都不风光 很多人第一次听到“稀土比铜还便宜”,都会下意识觉得不合...
开年大涨,2026黄金还将“狂... 2026年开年首个交易周结束,黄金价格再现大涨。 北京时间1月9日晚,在美国公布12月非农数据后,蓄...
原创 中... 特朗普政府在2026年初推动了一项针对俄罗斯能源出口的立法行动,明确将中国、印度、巴西等七个国家列为...
马斯克:白领劳动力将最先消失,... 大象新闻2026-01-10 08:38:28 近日,马斯克在播客节目中表示,AI将率先取代白领岗位...
场景化体验式 北京全时活跃消费... 1月10日至11日,全国商务工作会议在京召开,其中明确提出加快培育服务消费新增长点、释放服务消费潜力...