Stable Diffusion 3技术报告流出,Sora构架再立大功!生图圈开源暴打Midjourney和DALL·E 3? stablediffusion3教程 stable diffusion出3d效果
admin
2024-03-06 13:31:17
0


新智元报道

编辑:润

【新智元导读】Stability AI放出了号称能暴打闭源模型的Stable Diffusion 3的技术报告,采用DiT构架的新模型在灵活性和性能上都达到了新的高度。

,今天公布了详细的技术报告。

论文深入分析了Stable Diffusion 3的核心技术——改进版的Diffusion模型和一个基于DiT的文生图全新架构!


报告地址:

https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf

通过人类评价测试,Stable Diffusion 3在字体设计和对提示的精准响应方面,超过了DALL·E 3、Midjourney v6和Ideogram v1。

Stability AI新开发的多模态扩散Transformer(MMDiT)架构,采用了分别针对图像和语言表示的独立权重集,与SD 3的早期版本相比,显著提升了对文本的理解和文字的拼写能力。


性能评估

在人类反馈的基础之上,技术报告将SD 3于大量开源模型SDXL、SDXL Turbo、Stable Cascade、Playground v2.5 和 Pixart-α,以及闭源模型DALL·E 3、Midjourney v6 和 Ideogram v1进行了详细的对比评估。

评估员根据与给定提示的一致性、文本的清晰度以及图像的整体美观度选择了每个模型的最佳输出:


测试结果显示,无论是在遵循提示的准确性、文本的清晰呈现还是图像的视觉美感方面,Stable Diffusion 3都达到或超过了当前文生图生成技术的最高水平。


完全没有针对硬件进行过优化的SD 3模型具有8B参数,能够在24GB显存的RTX 4090消费级GPU上运行,并且在使用50个采样步骤的情况下,生成1024x1024分辨率的图像需耗时34秒。

此外,Stable Diffusion 3在发布时将提供多个版本,参数范围从8亿到80亿,从而能以进一步降低使用的硬件门槛。


架构细节曝光

在文生图的过程中,模型需同时处理文本和图像这两种不同的信息。所以作者将这个新框架称之为MMDiT。

在文本到图像生成的过程中,模型需同时处理文本和图像这两种不同的信息类型。这就是作者将这种新技术称为MMDiT(多模态Diffusion Transformer的简称)的原因。

与Stable Diffusion之前的版本一样,SD 3采用了预训练模型来提取适合的文本和图像的表达形式。

具体而言,他们利用了三种不同的文本编码器——两个CLIP模型和一个T5 ——来处理文本信息,同时使用了一个更为先进的自编码模型来处理图像信息。


SD 3的架构是在Diffusion Transformer(DiT)的基础上建立的。由于文本和图像信息的差异,SD 3为这两种信息各自设置了独立的权重。


这种设计相当于为每种信息类型配备了两个独立的Transformer,但在执行注意力机制时,会将两种信息的数据序列合并,这样就可以在各自的领域内独立工作的同时,能保持够相互参考和融合。


通过这种独特的构架,图像和文本信息之间可以相互流动和交互,从而在生成的结果中提高对内容的整体理解和视觉表现。

而且,这种架构未来还可以轻松扩展到其他包括视频在内的多种模态。


得益于SD 3在遵循提示方面的进步,模型能够精确生成集中于多种不同主题和特性的图像,同时在图像风格上也保持了极高的灵活性。


通过重赋权法改进Rectified Flow

除了推出的全新Diffusion Transformer构架之外,SD 3对于Diffusion模型也进行了重大的改进。

SD 3采用了Rectified Flow(RF)策略,将训练数据和噪声沿着直线轨迹连接起来。

这种方法让模型的推理路径更加直接,因此可以通过更少的步骤完成样本的生成。


作者在训练流程中引入了一种创新的轨迹采样计划,特别增加了对轨迹中间部分的权重,这些部分的预测任务更具挑战性。

通过与其他60种扩散轨迹(例如 LDM、EDM 和 ADM)进行比较,作者发现尽管之前的RF方法在少步骤采样中表现更佳,但随着采样步骤增多,性能会慢慢下降。

为了避免这种情况的出现,作者提出的加权RF方法,就能够持续提升模型性能。

扩展RF Transformer模型

Stability AI训练了多个不同规模的模型,从 15 个模块、450M参数到38个模块、8B参数,发现模型大小和训练步骤都能平滑地降低验证损失。

为了验证这是否意味着模型输出有实质性的改进,他们还评估了自动图像对齐指标和人类偏好评分。

结果表明,这些评估指标与验证损失强相关,说明验证损失是衡量模型整体性能的有效指标。

此外,这种扩展趋势没有达到饱和点,让我们对未来能够进一步提升模型性能持乐观态度。


作者在256 *256像素分辨率下,在4096的批大小下,用不同参数数对模型进行了500k步训练。


上图说明了长时间训练较大模型对样本质量的影响。

上表显示了GenEval的结果。当使用作者提出的训练方法并提高训练图像的分辨率时,最大的模型在大多数类别中都表现出色,在总分上超过了 DALL·E 3。

根据作者对不同构架模型的测试对比,MMDiT效果非常好,超过了DiT,Cross DiT,UViT,MM-DiT。


灵活的文本编码器

通过在推理阶段去除占用大量内存的4.7B参数的T5文本编码器,SD 3的内存需求得到了大幅降低,而性能损失微乎其微。

去除这个文本编码器不会影响图像的视觉美感(不使用T5的胜率为 50%),只会略微降低文本的准确遵循能力(胜率为46%)。

然而,为了充分发挥SD 3在生成文字的能力,作者还是建议使用T5编码器。

因为作者发现在没有它的情况下,排版生成文字的性能会有更大的下降(胜率为 38%)。


网友热议

网友们对Stability AI不断撩拨用户但是不让用的行为显得有些不耐烦了,纷纷催促赶快上线让大家使用。


看了技术报考后,网友说看来现在生图圈子要成第一个开源碾压闭源的赛道了!


参考资料:

https://stability.ai/news/stable-diffusion-3-research-paper

相关内容

热门资讯

原创 人... 2023年,联合国人口司报告:印度人口超过了中国。中国丢掉了“世界第一人口大国”的帽子,马路上娃娃车...
缓解亏损压力,消息称Meta明... IT之家 5 月 30 日消息,科技媒体 The Information 今天(5 月 30 日)发...
原创 大... " 作者丨追命 编辑丨坚果 封面来源丨Unsplash " 近日,刘强东的“兄弟论”又一次刷屏。...
美国软件股逆袭,创2001年以... Snowflake与Okta强劲财报提振情绪,市场对AI颠覆软件行业的极端悲观预期开始松动。 Sno...
原创 5... 一夜之间,黄金价格犹如经历一场惊心动魄的“踩踏”,重重跌破了4500美元/盎司的心理大关,昔日被视为...
德康农牧(02419.HK)获... 格隆汇5月29日丨根据联交所最新权益披露资料显示,2026年5月28日,德康农牧(02419.HK)...
37岁公司董事长、车手张秀军比... 每经编辑|何小桃 5月29日,2026中国环塔国际拉力赛组委会发布通告:5月26日,在2026中国...
原创 人... 观察者网报道,本周在纽约经济俱乐部的一场专题讨论会上,加拿大总理卡尼发表了一番引发广泛关注的讲话。这...
反复尿路感染别只吃消炎药 很多人尿频、尿急、尿痛一发作,就自行购买消炎药服用,症状消失就立刻停药,这是尿路感染反复发作的主要原...
原创 散... 最后再说一遍:散户对白酒、地产的理解是大错特错了…… 投资是投资,现实是现实,行业是行业,大家必须分...
从Vinexpo Asia 2... 5月26日至28日,Vinexpo Asia – Be Spirits – Be No 2026亚洲...
原创 金... 今天去商场转了一圈,金店柜台前的人比上个月少了很多。 看了下当天挂牌价,东方大国黄金的首饰金报在13...
消费资产今日全线回暖,港A两套... 今日消费板块呈现明显回暖态势,港股新消费龙头表现抢眼。 泡泡玛特(09992.HK)、 安踏体育(0...
滴滴开放日走进判责客服:讨论纠... 5月28日,滴滴开放日在大连客服职场举办。活动聚焦“体验与服务”,邀请司机、乘客、媒体、行业专家等各...
中餐出海进阶:狂飙过后,该算账... 近几年,随着出境游热度攀升,越来越多的国人发现,不管是东南亚的市井街头,还是欧美的核心商圈,总能轻易...
A股“芯”征程:5%科技龙头虹... A股上演“冰火两重天”:一边是白酒、地产等传统“核心资产”持续遇冷,一边是芯片、半导体等新兴题材不断...
上海大模型龙头,启动A股上市! 来源:智东西 新一代旗舰模型也即将发布。 作者 | 陈骏达 编辑 | 李水青 智东西5月30日报道...
MiniMax正式启动A股IP... 据证监会官网IPO辅导公示系统显示,MiniMax已向上海证监局提交A股IPO辅导备案,中信证券担任...
三重利好共振推动港股内房股反弹... 5月29日,港股内房股显著拉升, 碧桂园(02007.HK)涨幅超38%, 融创中国(01918.H...
利空突袭,全线大跌!马斯克,紧... 在IPO前夕,马斯克的SpaceX突遭“拉黑”。 据最新消息,丹麦养老基金AkademikerPen...