Stable Diffusion四大基礎(chǔ)模型測(cè)評(píng)丨附整合包下載地址
Stable Diffusion 3.終于開(kāi)源了。
當(dāng)初SD3 API放出來(lái)的時(shí)候,他的公司Stability AI已經(jīng)出現(xiàn)大大小小很多的裂縫了。
先是在今年3月23日,Stability AI的CEO Emad Mostaque宣布辭職。
第一季度結(jié)束的時(shí)候,Stability AI的營(yíng)收不到500萬(wàn)美元,虧損超過(guò)3000萬(wàn)美元。此外,他們還拖欠云計(jì)算供應(yīng)商和其他公司近1億美元的賬單,可以說(shuō),Stability AI已經(jīng)亂成一鍋粥了。
即便這樣,Stability AI頂著大家評(píng)論他商業(yè)模式稀爛的輿情壓力的情況下,依然不時(shí)地開(kāi)源一些模型,給你一些小驚喜。
比如代碼模型Stable Code Instruct 3B、3D視頻模型Stable Video 3D、3D模型TripoSR、音頻模型Stable Audio Open等等...
不過(guò)Stability AI畢竟是以AI繪畫(huà)出圈的,繪圖模型是核心業(yè)務(wù),所以大家還是更期望看到他的繪圖模型Stable Diffusion發(fā)出來(lái)。不過(guò)看一眼Stability AI的慘狀,大家都覺(jué)得,SD3開(kāi)源無(wú)望了。
果然,SD3來(lái)了,意料之中的是,是付費(fèi)API的形式。
不過(guò)廣大網(wǎng)友沒(méi)有放棄,還是抱著一些微弱的希望,在Stability AI官方推特下面求開(kāi)源模型哈哈哈。
結(jié)果,萬(wàn)萬(wàn)想不到的是,千呼萬(wàn)喚始出來(lái)。Stability AI大手一揮說(shuō),那行,繼續(xù)開(kāi)源!
這次給了一個(gè)中型版本的SD3.20億參數(shù),Stable Diffusion 3 Medium。
有些人可能覺(jué)得中型不夠意思,但是我覺(jué)得剛好,畢竟再大了本地也跑不動(dòng)啊= =
他們官宣的是6月12號(hào),于是我就等啊等,12號(hào)從中午等到晚上,終于,等到了Stability AI把模型放出來(lái)了。在huggingface上開(kāi)源。
網(wǎng)址在此:https://huggingface.co/stabilityai/stable-diffusion-3-medium
第一時(shí)間,我跟我我的小伙伴@祁玨瑜 對(duì)比了SD1.5.SD2.0.SDXL,SD3 Medium四個(gè)基礎(chǔ)模型,來(lái)給大家看一下SD這么長(zhǎng)時(shí)間,直觀的進(jìn)化。也給大家看看,SD3 Medium,有多強(qiáng)。
先說(shuō)一下測(cè)試的大背景。
我們知道對(duì)于SD的話,需要很多的提示詞,一般SD提示詞兩部分組成:內(nèi)容描述提示詞+畫(huà)質(zhì)描述提示詞。
之前SD很煩的是,你必須要加一些冗余的畫(huà)質(zhì)提示詞,比如best quality, high resolution, 8k之類的,正向反向都得加,不加的話則出圖質(zhì)量會(huì)差很多。
那我覺(jué)得既然SD3了,你就別欺負(fù)前面的弟弟了。
所以我給前三個(gè)模型SD1.5.SD2.0.SDXL提示詞評(píng)測(cè)都加了正向畫(huà)質(zhì)提示詞和反向畫(huà)質(zhì)提示詞,(后面每一個(gè)都加了,為了避免重復(fù)就不寫(xiě)出來(lái)了)
1.5和2.0 的正向反向畫(huà)質(zhì)提示詞
best quality, high resolution, 8k,masterpiece, highly detailed, UHD,
bad proportions, low resolution, bad, ugly, terrible, render, watermark, logo,
sdxl 的正向反向畫(huà)質(zhì)提示詞(因?yàn)閤l和之前的畫(huà)質(zhì)提示詞有些不同)。
score_9. score_8_up, score_7_up
score_6. score_5. score_4. source_pony, low quality, normal quality, lowres,logo, watermark,
那SD3呢,我不給他加任何的畫(huà)質(zhì)提示詞,直接裸奔。
所以其實(shí)最開(kāi)始評(píng)測(cè)是有些不公平的,不過(guò),真正的強(qiáng)者不需要我們的特殊照顧。直接來(lái)看效果。
1. 第一組內(nèi)容提示詞,看一下語(yǔ)義理解能力。
a cat,a destroyed badly damaged space ship,beautiful beach,broken windows, grass and flowers grow around,sunny,ocean(一只貓,一艘被摧毀的嚴(yán)重受損的宇宙飛船,美麗的海灘,破碎的窗戶,周圍長(zhǎng)著草和鮮花,陽(yáng)光明媚,海洋)
SD1.5:emmmmmm,這怎么成兩張了,小貓咪看起來(lái)不太高興啊,挎著個(gè)臉,海灘不太美麗雅,陽(yáng)光呢?
SD2.0:不是,小貓?jiān)趺磸拇镩L(zhǎng)出來(lái)了,還有月亮你是怎么回事兒?不是說(shuō)好的太陽(yáng)嗎。
SDXL:整體還行,但畫(huà)面有點(diǎn)昏暗,配色不是很舒服。
SD3:王炸!語(yǔ)義理解能力極強(qiáng),陽(yáng)光明媚,美麗的海灘,鮮花……關(guān)鍵細(xì)節(jié)什么的都很好,畫(huà)面也很和諧。
-
2. 再來(lái)測(cè)一下相對(duì)位置關(guān)系理解,這個(gè)更加考驗(yàn)?zāi)P湍芰Α?/p>
a dog,hold hot dog,outdoors,grass(一只狗,叼著熱狗,戶外,草地)
SD1.5:emmmmmm,這小狗的熱狗怎么懸空了啊?你的熱狗怎么成香腸了?
SD2.0:SD2.0比較聰明,他直接把熱狗放到了地上,哈哈這樣你就挑不出我毛病了吧,但是語(yǔ)義理解不對(duì)啊大哥。
SDXL:基本理解了我的意思,但是這個(gè)畫(huà)風(fēng),以及這個(gè)舌頭銜接太奇怪了吧。
SD3:王炸!光效銜接都非常自然,小狗很可愛(ài),熱狗也很有食欲。
-
3.測(cè)試一下二次元?jiǎng)勇宋铩?/p>
((anime style)),1girl, indoors, sitting on the sofa, living room, pink hair, blue eyes, from back, from above, face towards viewer, playing video games, holding controller, white shirt, short, parted lips, anime production(((動(dòng)漫風(fēng)格)),1女孩,室內(nèi),坐在沙發(fā)上,客廳,粉紅色的頭發(fā),藍(lán)眼睛,從后面,從上面,臉朝向觀眾,玩電子游戲,拿著手柄玩游戲,白襯衫,短,分開(kāi)的嘴唇,動(dòng)漫制作)
SD1.5:底模過(guò)于抽象。。。很多細(xì)節(jié)都丟失了,對(duì)比著看一下吧,從頭發(fā)到眼睛。
SD1.5:千手觀音?
SDXL:有點(diǎn)感覺(jué)了,但是你的畫(huà)風(fēng)畫(huà)質(zhì)很難評(píng)
SD3:沒(méi)的說(shuō),依然是王炸!從頭發(fā)到眼鏡,從整體畫(huà)質(zhì),到細(xì)節(jié),No1!
動(dòng)漫還做了另一組對(duì)比圖。
你懂的= =
-
4. 再測(cè)試一下不同的科幻風(fēng)格
robot droids, in the desert , colorful, dutch angle(機(jī)器人, 在沙漠中, 五顏六色)
SD1.5:這機(jī)器人,是營(yíng)養(yǎng)不良吧?哈哈哈 還有說(shuō)好的五顏六色呢?
SD2:右邊這哥們你的手臂掉了~其他不必多說(shuō)了,懂得都懂嘿嘿
SDXL:還行,但是這個(gè)機(jī)器人怎么這么丑呢,三條腿不對(duì)稱
SD3:同樣很Nice,依然是王炸,除了這顏色跟我理解的五顏六色不太一樣。
-
5. 再測(cè)一組真人圖片,難度也蠻大的,要求在水下。
1boy,underwater,green eyes,white skirt,looking at viewer(1個(gè)男孩,水下,綠色眼睛,白色裙子,看著觀眾)
SD1.5:恐怖片。。。
SD2.0:更恐怖了,有點(diǎn)像泡開(kāi)的奧特曼。。
SDXL:還可以,湊合能看,就是這綠的啊。
SD3:非常NIce!
再測(cè)另一組真人的。
-
6. 來(lái)一組風(fēng)景。
universe,stars,moon(宇宙、星星、月亮)
SD1.5:有點(diǎn)像我爸的微信頭像。。。
SD2.0:湊合,就是構(gòu)圖雪崩。
SDXL:SDXL是真的好容易畫(huà)卡通。
SD3:這氛圍就到位了。
-
7.最后一個(gè)SD3最棒的,文字嵌入。
Cyberpunk style,urban,1 robot,an electronic screen with“ Khazix”(賽博朋克風(fēng)格,都市,1個(gè)機(jī)器人,一個(gè)帶有“卡茲克斯”的電子屏幕)
這個(gè)就不評(píng)價(jià)了,因?yàn)檫^(guò)往的SD模型,都不支持文字嵌入,目前SD3是獨(dú)一份。
上面簡(jiǎn)單對(duì)比完之后,你可以直觀感受到SD3的威力了,也能感受到,Stable Diffusion這個(gè)模型,一路以來(lái)的進(jìn)化史。
我都不敢想象加了高質(zhì)量提示詞,配合開(kāi)源社區(qū)的微調(diào)等強(qiáng)大的生態(tài),這模型可以有多強(qiáng)。
最關(guān)鍵的是,它開(kāi)源,所以,他免費(fèi)?,F(xiàn)在他可以直接在你自己的電腦里用跑了。
不過(guò)我上面的測(cè)試都是在ComfyUI里做的,沒(méi)錯(cuò)是這個(gè)樣子。
我其實(shí)一直都沒(méi)咋寫(xiě)過(guò)ComfyUI,不是覺(jué)得他不行,而是他太行了。所以他上手門檻比較高,對(duì)于普通用戶來(lái)說(shuō),不如Webui直觀好用。
就在我想該怎么讓大家更方便用上的時(shí)候,小伙伴甩給我了Stability AI官方已經(jīng)放出的一個(gè)Webui,叫做StableSwarmUI。
https://github.com/Stability-AI/StableSwarmUI
他實(shí)際上是建立在ComfyUI的基礎(chǔ)上進(jìn)一步封裝的一個(gè)UI,非常快捷,導(dǎo)入工作流之后就可以直接使用了。
關(guān)鍵是,官方已經(jīng)提供了一鍵配置環(huán)境文件(甚至提供了mac電腦和linux環(huán)境配置文件),也就是模型運(yùn)行環(huán)境什么的都不需要我們自己去配置。
我們?cè)谶@個(gè)的基礎(chǔ)上,幫大家下載好了SD3模型并放置好了模型,簡(jiǎn)單弄了個(gè)整合包,可以直接打開(kāi)使用。
整合包我扔公眾號(hào)后臺(tái)了,對(duì)著公眾號(hào)私信“SD3”這個(gè)英文字母就有,使用教程太長(zhǎng),我也直接扔整合包里面去了。
實(shí)測(cè)我的小4060.8GB的顯存即可運(yùn)行。
更騷的是,Stability AI為了讓更多人能用上SD3.他們甚至跟AMD談了合作,現(xiàn)在,AMD的顯卡也能跑SD3了。。
真的是非常親民,從模型本身到模型運(yùn)行的環(huán)境,Stability真的做了很多。
Midjourney雖然確實(shí)牛叉,但確實(shí)對(duì)很多國(guó)內(nèi)的人來(lái)說(shuō),架起了高高的圍欄,很多普通人可能連去給Midjourney支付會(huì)員的方式都沒(méi)有
這時(shí),Stability AI站了出來(lái),說(shuō),“我來(lái)!”
Stability AI花了極高的成本訓(xùn)練了Stable DIffusion,開(kāi)源了Stable DIffusion系列。
這也才有了之后燦爛的開(kāi)源繪畫(huà)社區(qū),大家才可以把AI繪畫(huà)模型實(shí)實(shí)在在下到自己電腦上,切切實(shí)實(shí)感受繪畫(huà)的魅力。
昨天有一個(gè)小插曲,LUMA發(fā)布了他們的AI視頻Dream Machine,宣傳片是真的酷,激動(dòng)的我在各大群里亂叫大家別睡了,但是上手一測(cè),好像...也就那樣...并沒(méi)有太多額外的驚喜。
但反過(guò)來(lái)看SD,我屬有點(diǎn)淚目了,每一個(gè)工作都是實(shí)打?qū)嵉?,從?lái)也不過(guò)分宣傳,時(shí)不時(shí)還給你小驚喜,比如前段時(shí)間的47s的音頻模型也非常好用。
可能商業(yè)上,Stability AI做的很一般,被人們所詬病。
但是在開(kāi)源生態(tài)上,他真的極大推動(dòng)了AI界的發(fā)展。
可以這么說(shuō):
Stability AI,在我心中。
才是那個(gè)真正的。
OpenAI。
近期文章
更多