Midjourney V6刷屏,但它最可怕的地方居然不是那些神图? mid journey midjourneyv6鍙戝竷鏃堕棿
admin
2023-12-24 15:15:39
0


Midjourney在沉寂九个月后推出了Midjourney V6,这个文生图产品体现出的更细腻的细节处理,更强大的语言理解能力和更加“不像AI”的图片效果在过去几天引发一片惊呼。

作为一个闭源的模型产品,Midjourney的魔法配方并不为人所知,但就像OpenAI和Google一样它会在产品更新时发布官方技术公告,有心人还是可以从中一窥模型能力提升的技术原理。

而我们去扒了扒它透露的信息后,发现这次更新的意义远不止于大家晒的那一张张精美的图片上…….


Midjourney v6生成,电影月光光心慌慌的假剧照,图片源自reddit

图片模型的突破,却靠的是语言模型能力?

“Midjourney v6作为一个“文生图”模型,此次改进的核心能力却来自其自然语言处理能力的提升。

这首先是对提示词理解的’跟随能力’的提升。在其官方文档中,这被称为“prompt following”。简单来说,这就是指系统对用户输入的提示词的理解和响应能力。通过增强这一能力,Midjourney现在能够更好地解析复杂的提示,无论是关键词、命令还是问题,都能够准确把握。


Midjourney v6生成,电影疤面煞星的假剧照,图片源自reddit

第二个显著的更新是提示词的长度。用户现在可以输入更长的提示词。这一方面得益于上面提到的模型跟踪能力的增强,另外则依靠模型连贯性的提升。

所谓连贯性,用一个经典的故事就能解释。A问B:“下午大扫除,你来吗?”B说:“我去!我不去!”那么B的意思毫无疑问是不去,因为上文中的大扫除非常累,而B说的“我去!”在这里则表示惊讶,能够准确理解这个对话,就叫连贯性。它确保了模型在处理用户哪怕很复杂的指令输入时,也能够逻辑一致地响应。


Midjourney v6生成,李奥纳多在网飞出演电视剧的海报,图片源自reddit

这两个自然语言能力上的改进,Midjourney具体是如何做的?

在跟随能力方面的改进,主要基于三个方面:

上下文管理,它通过分析上下文关系来更准确地理解用户意图;序列建模,利用循环神经网络(RNN)和长短时记忆网络(LSTM)来捕捉对话中的长期依赖;以及交互状态跟踪,它持续追踪用户的目标、意图和对话状态,以确保系统响应的连贯性。

这些改进看起来就像是一个大语言模型的进化中在做的事情。


Midjourney v6生成,圣诞夜惊魂版的小丑和哈莉奎茵,图片源自reddit

但它毕竟是个文生图模型,也就是语言能力和图片能力结合的模型,这其实也给它在提升能力时带来了优势——与语言模型的对话产品形态总是涉及隐私与所属的问题不同,Midjourney v6生成的图片目前来看,全部是公共资源。

也就是说你花钱买了服务以后,图片是公共的,模型会生成两份,你拿一份,V6的服务器(也就是V6 discoard)也拿一份。那么Midjouney可以拿这些“实战”反过来加入到自己的预训练大模型中,继续训练模型以提高性能。


Midjourney v6生成,一只猫拿着手枪,图片源自reddit

所以这还引出一个有意思的话题,如果文生图因此而能够源源不断拥有更高质量的数据来反哺到预训练阶段,而数据真的成为模型训练的决定性因素后,是不是文生图模型有可能训练出比大语言模型更强的语言能力?

在连贯性提升上其实就已经有一点这个味道。对于大语言模型来说,想要提高连贯性并不简单,涉及了多方面的因素。但是作为一个使用自然语言来生成图片的模型,事实上简化了过程,由于它不涉及与用户进行持续对话,因此无需应用束搜索等启发式算法,也无需处理自然语言生成中的后处理问题,如语法校正和风格调整。这种简化使得Midjourney在提高连贯性方面只需专注于核心任务,从而显著提升了其在理解和响应用户输入时的逻辑一致性。


Midjourney v6生成,猎魔人杰洛特与超人的结合,二者皆有同一演员亨利·卡维尔饰演,图片源自reddit

懂视觉的模型能有更好的文字能力?

图像模型却靠语言能力突破,这其实已经不是第一次。此前同样引发一阵骚动的Dalle3,也是如此。作为OpenAI的模型,背靠ChatGPT,语言能力自然更强。

在对比了两者后我发现V6在语言理解上其实还是较DALL·E有一定差距。最明显的地方就在于适应性上。适应性代表系统在能适应不同用户的语言风格和表达方式,以及在面对新的或未见过的情况时保持响应连贯性的能力。可能是DALL·E背靠ChatGPT,所以在对自然语言各方面的性能上会更优异一些。

但Midjourney似乎也在瞄着ChatGPT为代表的语言模型的能力来进化。在此次的更新中,V6增加的另一个非常重要的能力,也与语言有关。Midjourney称,其现在拥有了文本绘制能力,虽然依然较弱。

对于人工智能绘图来说,能绘制文本无疑是一项重大进步。


文字不再是乱码。图源:X.com

这个能力并非像看起来那样,直接来自模型里大语言模型的模块。在官方更新里,文本绘制能力后紧随的是图像放大功能的更新。它们原理比较复杂,但本质其实是同一个问题。

图像生成模型在训练的时候所用的数据,是一些通过泛化和模糊处理的图像内容。我们都知道,分辨率越高的图片数据量越大,反之,越模糊越泛化的图片它的数据量就越小。人工智能理解图片的方式和人类完全不一样,他们是按照统计学的一个概念叫做“模式识别”,通过图片中的特征来理解。使用泛化和模糊的图片好处在于,小数据量的图片读取速度快,训练时间就短。但想要用这种训练方式来理解文字是非常难的,因为文字是一种符号,这种泛化处理对于图像中的文字尤其不利,即使是微小的变形或模糊都可能导致文字难以辨认。同时,训练所使用的图像分辨率很低,那么生成图片时,分辨率也不会高到哪里去。


图片上的文字与图像整体风格融合。图片来源:X.com

而Midjourney的训练方法,其实就是在训练它的图像“放大”能力。它所使用的模型叫做去噪扩散概率模型(denoising diffusion probabilistic models),这种模型通过模拟从噪声中提取信息的过程来生成清晰的图像。想象一下,就像我们用软件修复模糊的老照片,Midjourney的模型也能够从模糊的图像中“学习”到清晰的细节。


图片来源:X.com

也就是说,这是像Midjourney这样的图像模型一直在做的事情,训练越久优化越久它的图像“放大”能力就越强,也就会逐渐产生关于文字的生成能力。

在直觉上,这种能力肯定不如“纯粹”的语言模型的语言能力,但一些研究已经在给出不同的指向,在多模态领域很重要的模型VLMO的论文里就曾提到一个有意思的结论,当你完全拿一个在视觉数据上训练好的模型,可以直接对文本数据建模,甚至不需要微调就可以有很强的文本生成能力。但反过来用语言训练在视觉上生成,则差很多。


这也许就是视觉想对文字说的话。图源:X.com

这是一种很奇怪也很有意思的现象,这一次V6似乎把它再一次轻微的展示出来了。而更重要的是在今天多模态大模型已经成为未来最重要的趋势时,一个图像能力为主的模型产生文字能力给了走向多模态一个新的思路。

世界更精彩了。



欢迎加入这个星球,见证硅基时代发展↓

相关内容

热门资讯

香港公司第一次开银行账户选哪家... “香港公司第一次开企业账户,真的有这么难吗?” 如果你也刚注册了一家香港公司,准备开启外贸、电商或服...
我的基金离“金选”还有多远?乐... 随着投资者对基金产品的关注度不断提高,如何通过运营打造出符合金选标准的优质基金,成为众多基金公司面临...
沪指半日涨0.29% 商业航天... 上证报中国证券网讯 12月25日午间收盘,三大指数涨跌不一,沪指涨0.29%,深成指跌0.11%,创...
上市公司,斥资千万布局上海 近日,嘉顺达明国际物流(上海)有限公司成立,法定代表人为陆龙祥,注册资本1000万人民币,经营范围含...
造车九年只卖百辆,贾跃亭还剩什... 新车下线,真能逆转这家老牌新势力的命运? 日前,法拉第未来创始人贾跃亭宣布FX Super One预...
广期所:已充分做好铂、钯期货交... 【广期所:已充分做好铂、钯期货交割各项准备工作】财联社12月24日电,在铂、钯市场关注度提升的同时,...
硕远咨询:2025年国潮鞋转售... 今天分享的是:硕远咨询:2025年国潮鞋转售行业市场研究报告 报告共计:27页 2025年国潮鞋转售...
3家建筑央企领导成员调整! 12月23日。国资委发布信息,涉及3家建筑相关央企领导调整。具体如下: 提名王洁民为中国建筑科学研究...
锋龙股份:筹划控制权变更,股票... 来源:界面新闻 锋龙股份12月24日公告,诚锋投资、董剑刚、宁波锋驰投资有限公司、厉彩霞与深圳市优必...
十五五开局即王炸!从“府城”系... 在沈阳浑南新市府板块的价值攀升曲线中,总有一个名字始终占据核心C位——辽宁交投·府城系列。作为深耕区...
年内多家商业银行增资“补血”方... 近日,在港股上市的威海银行发布公告称,该行与津联集团有限公司(以下简称“津联集团”)签订H股认购协议...
2025年加密货币被盗金额超2... 来源:环球市场播报 区块链监测机构的数据显示,网络犯罪分子今年盗取的加密货币金额高达 27 亿美元...
原创 突... 2025年12月23日,美国贸易代表办公室宣布了一项关键决定:在至少未来18个月内,不对中国芯片加征...
高值耗材集采规则再优化!医疗器... 12月25日午后,三大指数集体拉升,白酒、医疗器械等多个低位板块走强。医疗器械指数ETF(15989...
《鼓励外商投资产业目录(202... 人民网北京12月24日电 (记者罗知之)据国家发展改革委网站消息,近日,国家发展改革委、商务部全文发...
云深处完成数亿元Pre-IPO... 极目新闻记者 黄永进 实习生 曹亚丹 李秉坤 12月25日,杭州云深处科技股份有限公司完成数亿元人民...
调查:高物价致美国消费者节日季... 来源:西部网 新华社纽约12月23日电 美国在线贷款平台贷款树公司日前发布的调查结果显示,今年37%...
京东时尚秒送累计入驻商家超千家... 据京东消息:截至2025年底,京东时尚秒送累计入驻商家超千家;营业门店数量同比增长超150%,覆盖了...
时隔15个月,离岸人民币“破7... 12月25日,在岸、离岸人民币兑美元汇率一路攀升。其中,离岸人民币兑美元汇率时隔15个月再破“7.0...
曝浙江稠州主帅丁伟下课 曾执教... 北京时间12月25日,据多个消息源透露,浙江稠州男篮主帅丁伟下课,球队外籍助理教练亚历山德罗斯-法莱...