Stable Diffusion 3上線:登頂最強(qiáng)開源AI繪畫模型,筆記本、手機(jī)都能跑丨大量實(shí)測
萬眾矚目的Stable Diffusion 3終于正式開源了!
目前開源的是20億參數(shù)的版本,據(jù)悉之后還會開源40億和80億的“大杯”與“超大杯”。
最近母公司Stability AI的壞消息連連,據(jù)傳賬面現(xiàn)金都不夠支付算力服務(wù)器的租賃費(fèi)。欠債一億美金的AI獨(dú)角獸,為何仍堅(jiān)持做「開源英雄」?
今年4月,Stable Diffusion 3首次對外公開,但那會只開放了API。很快在“人類偏好評估”中力壓DALL·E 3和Midjourney V6,一舉成為該領(lǐng)域的SOTA(現(xiàn)階段最好的解決方案)。
因?yàn)楣タ肆薃I圖像生成領(lǐng)域極其困難的「文本生成準(zhǔn)確性」,SD3一時(shí)名聲大噪,引發(fā)了極大熱度。
可以在圖上的指定對象精準(zhǔn)生成文字,be like。
在鼎盛時(shí)期,Stability AI收獲過不少的橄欖枝,卻斷然拒絕被收購。
現(xiàn)如今,欠債累累的公司依然毅然決然走上開源之路。
——強(qiáng)大的架構(gòu)、更好的明暗對比度、提示遵循、訓(xùn)練結(jié)果、模型合并、圖像分辨率……SD3的開源給我們帶來的貢獻(xiàn)可太多了!
所有AI繪圖圈的玩家都在翹首以盼。
Stable Diffusion 3的開源,為何意義如此重大?
一位Reddit社區(qū)的老哥從技術(shù)視角幫助我們理解SD3的重要性,以及對AI開源社區(qū)的重大影響。
作者表示,Stable Diffusion 3是如此的重要,它改變了游戲規(guī)則。
Stability AI發(fā)明了一種VAE(變分自編碼器)非常特殊,因?yàn)樗峁┝?6個(gè)通道的特征和顏色數(shù)據(jù)采集器供我們使用,而之前的文生圖模型只有4個(gè)通道。
下面的四張圖對比可以看到通道數(shù)的影響有多大。
通道越多,意味著圖像模型在訓(xùn)練時(shí)會捕獲更多細(xì)節(jié),也就更容易還原我們想要的高清文字,而不是「鬼畫符」。
不僅模型的出圖質(zhì)量會更好,而且可以帶來更好的訓(xùn)練效率。
與舊的模型相比,新一代的16通道VAE在512x512如此小的分辨率下依然可以捕捉到很好的細(xì)節(jié)。
為了更容易理解畫質(zhì)的進(jìn)步,我們用一個(gè)示例類比——
如果你是骨灰級游戲玩家肯定見過這幾種視頻線。
●左:紅黃白視頻線(Composite cables)= SD 1.X VAE
●中:S-Video視頻線 = SDXL VAE
●右:紅綠藍(lán)視頻線(Component cables)= SD3 VAE
因此,將VAE應(yīng)用到如今我們的AI工作流程中,一切都將變得更加高效。
接下來,讓我們引用本站簽約作者@數(shù)字生命卡茲克的出片感受一下。
此前版本的Stable Diffusio很煩的是,你必須要加一些畫質(zhì)提示詞作為提示詞后綴,比如best quality, high resolution, 8k之類。
那SD3呢,我不給它添加任何的畫質(zhì)提示詞就已經(jīng)可以實(shí)現(xiàn)高質(zhì)量出圖。
咱們直接來看效果——
①長提示語義理解測試
a cat,a destroyed badly damaged space ship,beautiful beach,broken windows, grass and flowers grow around,sunny,ocean(一只貓,一艘被摧毀的嚴(yán)重受損的宇宙飛船,美麗的海灘,破碎的窗戶,周圍長著草和鮮花,陽光明媚,海洋)
●SD1.5:Emmm,怎么裂開兩張了,小貓咪看起來不太高興啊,挎著個(gè)臉
●SD2.0:不是,怎么船里長貓了~~
●SDXL:整體還行,但畫面有點(diǎn)昏暗,配色不是很舒服。
●SD3:王炸!語義理解能力極強(qiáng),陽光明媚,美麗的海灘,鮮花等等關(guān)鍵細(xì)節(jié)什么處理得很好,畫面構(gòu)圖也和諧。
②測一下相對位置關(guān)系理解,著重考察模型構(gòu)圖能力
a dog,hold hot dog,outdoors,grass(一只狗,叼著熱狗,戶外,草地)
●SD1.5:熱狗起飛了……
●SD2.0:你以為將熱狗放到地上就挑不出毛病了是吧,但是不符合畫面表述
●SDXL:基本符合語義,但是狗狗的舌頭崩壞了
●SD3:王炸!光效銜接都非常自然,小狗很可愛,熱狗也很有食欲
③二次元人物
((anime style)),1girl, indoors, sitting on the sofa, living room, pink hair, blue eyes, from back, from above, face towards viewer, playing video games, holding controller, white shirt, short, parted lips, anime production(動(dòng)漫風(fēng)格,1女孩,室內(nèi),坐在沙發(fā)上,客廳,粉紅色的頭發(fā),藍(lán)眼睛,從后面,從上面,臉朝向觀眾,玩電子游戲,拿著手柄玩游戲,白襯衫,短,分開的嘴唇,動(dòng)漫制作)
●SD1.5:臉模過于抽象,細(xì)節(jié)丟了,學(xué)畫3月的功力?
●SD2.0:變成了千手觀音?
●SDXL:有點(diǎn)感覺了,但是手柄的透視不對
●SD3:從頭發(fā)到眼鏡,從整體畫質(zhì)到細(xì)節(jié)都是最好的
我們再測一組——
并不意外,SD3依然是最穩(wěn)定的那個(gè)。
④科幻風(fēng)格
robot droids, in the desert , colorful, dutch angle(機(jī)器人,在沙漠中,五顏六色)
●SD1.5:沒有識別出五顏六色
●SD2.0:右邊這哥們你的手臂咋掉了
●SDXL:機(jī)器人形象模仿了星球大戰(zhàn)R2-D2.但是三條腿不對稱
●SD3:好家伙,無頭機(jī)器人,大黃蜂+刑天合體
⑤寫實(shí)圖像,要求在水下
1boy,underwater,green eyes,white skirt,looking at viewer(1個(gè)男孩,水下,綠色眼睛,白色裙子,看著觀眾)
●SD1.5:對人數(shù)的認(rèn)知不對
●SD2.0:好可怕,像泡發(fā)的奧特曼
●SDXL:像鬼故事里邊的小孩
●SD3:奶思!
再測另一組真人寫實(shí)成像——
SD3妥妥的完勝!
⑥來一組風(fēng)景圖生成
universe,stars,moon(宇宙、星星、月亮)
●SD1.5:還行
●SD2.0:湊合,但是恒星跑到星云外,偏離現(xiàn)實(shí)
●SDXL:這個(gè)模型版本真的很容易出卡通圖
●SD3:兼具藝術(shù)感與科幻
⑦最后測試一個(gè)SD3的拿手好戲,文字嵌入
Cyberpunk style,urban,1 robot,an electronic screen with“ Khazix”(賽博朋克風(fēng)格,都市,1個(gè)機(jī)器人,一個(gè)帶有“卡茲克斯”的電子屏幕)
在圖像上生成準(zhǔn)確的文字,目前SD3是獨(dú)一份的卓越。
經(jīng)過一番對比,相信家人們已經(jīng)能夠直觀感受SD3的威力。也能感知Stable Diffusion系列迭代的進(jìn)化史。
我都不敢想象加以高質(zhì)量的輔助描述提示詞,配合AI繪圖開源社區(qū)的微調(diào)模型等強(qiáng)大的應(yīng)用生態(tài),SD3文生圖模型可以變得多強(qiáng)。
最關(guān)鍵的是,它開源的。
所以,免費(fèi)?,F(xiàn)在它可以直接在你的電腦里自由跑了。
SD3對于模型的訓(xùn)練放寬了硬件要求,并針對英偉達(dá)與AMD的最新GPU、APU進(jìn)行了專門的推理優(yōu)化。
本次發(fā)布開源的Stable Diffusion 3 Medium版本,這是一個(gè)20億參數(shù)的小參數(shù)模型,體積小巧,可以在用戶的桌面PC消費(fèi)級顯卡、筆記本顯卡以及企業(yè)級GPU服務(wù)器上運(yùn)行。
乃至經(jīng)過蒸餾后縮小直接在手機(jī)上運(yùn)行,目前Stability AI正在與高通公司開展相關(guān)合作。
家人可以通過Hugging Face在線試玩: