首个ICLR时间检验奖出炉!奠定图像生成范式,DALL-E/SD背后靠它 首个ICLR时间检验奖出炉!奠定图像生成范式,DALL-E/SD背后靠它
admin
2024-05-08 17:31:20
0

白交 发自 凹非寺
量子位 | 公众号 QbitAI

首届ICLR时间检验奖,颁向变分自编码器VAE

这篇跨越十一年的论文,给后续包括扩散模型在内的生成模型带来重要思想启发,才有了今天的DALL-E3、Stable Diffusion。此外,在音频、文本等领域都有广泛应用,是深度学习中的重要技术之一。



论文一作、VAE主要架构师Diederik Kingma可是妥妥大佬一枚。现在他在DeepMind担任研究科学家,曾是OpenAI创始成员、算法负责人,还是Adam优化器发明者。

网友纷纷表示祝福:Well Deserved,并称VAE改变了游戏规则。





值得一提的是,荣获亚军的论文也同样具有代表性,其参与者包括OpenAI首席科学家的Ilya、GAN的发明者Ian Goodfellow。

与此同时,杰出论文奖也悉数颁出。

首届ICLR时间检验奖

首先来看荣获时间检验奖的论文讲了什么。



概率建模是我们推理世界的最基本方法之一。这篇论文率先将深度学习与可扩展的概率推理(通过所谓的重参数化技巧进行摊平均值场变分推理)整合在一起,从而产生了变分自编码器(VAE)。

委员会评价这项工作其持久价值在于它的优雅。用于开发 VAE 的原理加深了我们对深度学习和概率建模之间相互作用的理解,并引发了许多后续有趣的概率模型和编码方法的开发。

传统自编码器有个问题,它学到的隐向量是确定的、离散的,也没有很好的可解释性,而且不能随机采样隐向量来生成新样本。VAE就是为了解决这些问题而提出的。

VAE的核心思想是把隐向量看作是一个概率分布。具体而言,编码器(encoder)不直接输出一个隐向量,而是输出一个均值向量和一个方差向量,它们刻画了隐变量的高斯分布。这样一来,我们就可以从这个分布中随机采样隐向量,再用解码器(decoder)生成新图片了。

但是问题在于,这个隐变量的后验分布很复杂,难以直接求解。

所以VAE的第二个关键思想是用一个简单分布(例如高斯分布)去近似真实的后验分布,并通过优化一个下界(ELBO)来训练模型。



这个下界可以分解为两部分:一部分让生成的图片更接近原始图片,另一部分让近似后验分布更接近先验分布(例如标准高斯分布)。直观地说,这相当于在重构输入图片的同时,对隐变量分布进行了一个“规范化”。

为了让这个下界能通过梯度下降来优化,VAE论文提出了一个重参数技巧,它把从分布中采样的过程改写成从标准高斯分布采样并进行线性变换。这样梯度就可以直接反向传播了。

这样一来,VAE可以学习到数据的隐空间表示,并用它来生成新样本。和传统自编码器相比,VAE学到的隐变量具有更好的可解释性和泛化能力。

在实验部分,论文在MNIST数据集上展示了VAE生成数字图像的效果。



而这篇研究背后的作者同样来头不小。

Diederik P. Kingma博士毕业于阿姆斯特丹大学。曾是OpenAI创始成员之一、算法团队负责人,专注于基础研究,比如用于生成模型的算法。

离开OpenAI之后,他来到谷歌,参与到谷歌大脑、DeepMind团队研究中去,他主导了一系列生成模型的研究,包括文本、图像和视频。除了VAE之外,他也是Adam优化器、Glow等发明者。谷歌学术被引超20万次。

除此之外,他还有着天使投资人这一身份。



不过目前从Twitter介绍上看,他貌似已经离开DeepMind。



AI大牛Max Welling目前是阿姆斯特丹大学机器学习研究主席,也是MSR杰出科学家。



另外,同样来自2013年的研究,来自谷歌、纽约大学、蒙特利尔大学的论文Intriguing properties of neural networks获得了亚军。



里面还有不少熟悉面孔,比如那个消失的OpenAI联创兼首席科学家Ilya Sutskever、GAN发明者Ian Goodfellow

ICLR委员对这篇论文评价如下:

随着深度神经网络在实际应用中的日益普及,了解神经网络何时以及如何出现不良行为显得尤为重要。这篇论文强调了这样一个问题,即神经网络很容易受到输入中几乎难以察觉的微小变化的影响。这一想法有助于催生对抗性攻击(试图愚弄神经网络)和对抗性防御(训练神经网络使其不被愚弄)领域。

杰出论文奖

与此同时,本届ICLR杰出论文奖也悉数颁出,共有5篇优秀论文获奖、11篇论文获得荣誉提名。

那么主要来看看这5篇论文讲了什么。

Generalization in diffusion models arises from geometry-adaptive harmonic representations



这篇来自纽约大学、法兰西学院的研究,从实验和理论研究了扩散模型中的记忆和泛化特性。作者根据经验研究了图像生成模型何时从记忆输入转换到泛化机制,并通过 “几何自适应谐波表征 ”与谐波分析的思想建立联系,进一步从建筑归纳偏差的角度解释了这一现象。

这篇论文涵盖了我们对视觉生成模型理解中的一个关键缺失部分,很可能会对该领域未来的重要理论研究有所启发。

Learning Interactive Real-World Simulators



研究机构来自UC伯克利、Google DeepMind、MIT、阿尔伯塔大学。汇集多个来源的数据来训练机器人基础模型是一个长期的宏伟目标。由于不同的机器人具有不同的感知-运动界面,这阻碍了大规模数据集的训练,因此带来了巨大的挑战。这项名为 “UniSim ”的工作是朝着这个方向迈出的重要一步,也是一项工程壮举,它使用基于视觉感知和控制文字描述的统一界面来聚合数据,并利用视觉和语言领域的最新发展,从数据中训练机器人模拟器。

Never Train from Scratch: Fair Comparison of Long-Sequence Models Requires Data-Driven Priors



来自特拉维夫大学、IBM的研究深入探讨了最近提出的状态空间模型和Transformer架构对长期顺序依赖关系的建模能力。令人惊讶的是,作者发现从头开始训练Transformer模型会导致对其性能的低估,并证明通过预训练和微调设置可以获得巨大的收益。

这篇论文执行得非常出色,在注重简洁性和系统性见解方面堪称典范。

Protein Discovery with Discrete Walk-Jump Sampling



基因泰克、纽约大学的研究解决了基于序列的抗体设计问题,这是蛋白质序列生成模型的一个重要应用。作者引入了一种创新而有效的新建模方法,专门用于处理离散蛋白质序列数据的问题。除了在硅学中验证该方法外,作者还进行了大量湿实验室实验,在体外测量抗体结合亲和力,证明了其生成方法的有效性。

Vision Transformers Need Registers



来自Meta等机构的研究,识别了vision transformer网络特征图中的伪影,其特点是低信息量背景区域中的高规范Tokens。作者对出现这种情况的原因提出了关键假设,并提供了一个简单而优雅的解决方案,利用额外的register tokens来解决这些伪影问题,从而提高模型在各种任务中的性能。从这项工作中获得的启示也会对其他应用领域产生影响。

这篇论文写得非常好,提供了一个开展研究的绝佳范例—发现问题,了解问题发生的原因,然后提供解决方案。

除此之外,本届会议共收到了7262 篇提交论文,接收2260篇,整体接收率约为 31%。此外Spotlights论文比例为 5%,Oral论文比例为 1.2%。

参考链接:
[1]https://arxiv.org/abs/1312.6114
[2]https://x.com/yisongyue/status/1787910669477757207
[3]https://blog.iclr.cc/2024/05/06/iclr-2024-outstanding-paper-awards/
[4]https://blog.iclr.cc/2024/05/07/iclr-2024-test-of-time-award/

相关内容

热门资讯

胶原蛋白填充剂入局者激增,三类... “以前是没得选,现在是不知道怎么选。”有人用这句话来形容当前的胶原蛋白填充剂市场竞争现状。 今年以来...
监管批复!周云霞就任彭泽农商银... 2026年2月13日,根据国家金融监督管理总局消息,《彭泽农商银行关于申请核准周云霞任职资格的请示》...
新春走基层|今年年货不一般,年... 2026年春节,年轻人的年货清单正在悄然变“硬核”。他们不再只满足于囤零食与装饰品,而是将黄金、纪念...
2026年郑州理筋正骨服务趋势... 郑州理筋正骨服务的发展与用户需求适配 中医理筋正骨作为传统中医特色疗法,在郑州有着深厚的文化积淀与广...
小红书祛痘赛道营销策略|新手也... 做小红书祛痘赛道的宝子们,是不是都有过这样的崩溃时刻?明明产品好用、内容也花了心思,笔记发出去却只有...
商务部召开德资企业圆桌会 2月12日,商务部副部长兼国际贸易谈判副代表凌激主持召开德资企业圆桌会。德国驻华大使馆公使葛若海以及...
原创 抗... 作品声明:内容仅供参考,如有不适及时就医 肺癌是全球发病率和死亡率最高的恶性肿瘤之一。过去放疗和化...
原创 欧... 最近,欧洲正在认真思考是否恢复与俄罗斯的对话。法国率先在技术层面重新建立了与俄罗斯的沟通渠道,其他西...
上海1700亿元龙头,冲刺港股... 2026年2月11日,来自上海闵行区的A股上市公司思源电气股份有限公司(下称“思源电气”)正式向港交...
大模型第一股智谱推进A股科创板... 发布新模型后,智谱“A+H”上市布局有新进展?2月13日,南都N视频记者从中国证监会官网获悉,智谱撤...
又一上市公司“蹭”商业航天概念... 继沃格光电(603773.SH)之后,又一家上市公司因披露的有关信息偏离客观事实,误导投资者,被监管...
春节快递“迟到又破损”?这几个... 来源:新浪财经 很多人在春节期间都有这样的经历:物流爆仓、配送延误、生鲜变质、包装破损。面对这些问题...
“妖股”直击:横店影视午后强势... 交易所数据显示,2月13日,横店影视开盘低开,早盘阶段整体呈现震荡调整走势;午后开盘后逐步上行,13...
三部门:加快建立无人驾驶航空器... 本报记者 杜雨萌 2月12日,国家发展改革委、国家金融监督管理总局、中国民航局对外发布《关于推动低空...
A股异动丨大元泵业跌逾4% 股... 大元泵业(603757.SH)现跌4.21%报42.58元,暂成交9亿元,最新市值79.4亿元。大元...
逼近1800元,飞天茅台创近一... 来源:界面新闻 图片来源:界面新闻 春节临近,贵州茅台产品再度出现热销。 2月13日,“酒价内参”...
比特币的属性已经变了!从12万... 每经记者:郑雨航 每经编辑:兰素英 加密货币市场正在遭遇一场震荡。 曾被誉为“数字黄金”的比特币,其...
原创 于... 于东来跟李嘉诚,谁配得上伟大?有人会说,李嘉诚是华人首富,隐形资产上千亿美元,生意遍布全球几十个国家...
原创 从... 文/万燕波 四个月。央企背景、新能源、香港上市。这三个词放在一起,懂行的人都知道意味着什么。 2月1...
晶晨股份:2025年净利润同比... 上证报中国证券网讯 2月12日,晶晨股份发布2025年业绩快报。公告显示,公司2025年全年实现营业...