Stable Diffusion 3將在6月12日正式開(kāi)源!照片真實(shí)感、樣式、圖片質(zhì)量、算力資源消耗等大幅優(yōu)化
6月3日晚,著名開(kāi)源大模型平臺(tái)Stability AI的聯(lián)合首席執(zhí)行官Christian Laforte,在AMD的產(chǎn)品發(fā)布會(huì)上宣布,文生圖模型 Stable Diffusion 3將于6月12日在Hugging Face開(kāi)源權(quán)重。
本次開(kāi)源的是Stable Diffusion 3的Medium模型,有20億參數(shù),在照片真實(shí)感、樣式、圖片質(zhì)量、算力資源消耗等方面都進(jìn)行了大幅度優(yōu)化,將比前兩代更好。
同時(shí)Stable Diffusion 3也是對(duì)標(biāo)閉源文生圖產(chǎn)品Midjourney、DALL·E 3的最佳模型之一,該系列已經(jīng)被全球數(shù)百萬(wàn)開(kāi)發(fā)者使用,很多文生視頻/3D模型也借鑒了該架構(gòu)。
今年2月22日,Stability AI首次預(yù)覽了Stable Diffusion 3.其逼真的圖片質(zhì)量、更好的文本語(yǔ)義理解與文字嵌入,使得全球開(kāi)發(fā)者們對(duì)這個(gè)模型相當(dāng)期待。
但在3月23日,Stability AI的首席執(zhí)行官Emad Mostaque被辭退,隨后又爆出財(cái)務(wù)危機(jī)正在尋求買家等不少負(fù)面新聞,大家開(kāi)始擔(dān)心Stable Diffusion 3的開(kāi)源還能否順利進(jìn)行。
好在Stability AI都挺過(guò)來(lái)了,而此時(shí)其新上任的聯(lián)合首席執(zhí)行官在AMD的產(chǎn)品發(fā)布會(huì)宣布這個(gè)事情,估計(jì)已經(jīng)獲得了ADM的贊助還很可能被全資收購(gòu)。
與英偉達(dá)相比,AMD在大模型、生成式AI的部署、開(kāi)發(fā)等方面略處于落后,Stability AI開(kāi)源的大語(yǔ)言模型、擴(kuò)散模型等的下載量合計(jì)超過(guò)千萬(wàn)級(jí)別,拿下它等同于收獲了一大批開(kāi)發(fā)者。
根據(jù)Stable Diffusion 3論文顯示,使用了與Sora相同的架構(gòu)Diffusion Transformer。
Diffusion模型作為生成模型的一種,主要通過(guò)數(shù)據(jù)到噪聲的逆過(guò)程來(lái)創(chuàng)造新的數(shù)據(jù)點(diǎn)。這種方法在圖像和視頻生成方面應(yīng)用非常廣泛。
但是隨著Diffusion不斷迭代,預(yù)訓(xùn)練、推理對(duì)算力需求呈指數(shù)級(jí)增長(zhǎng),對(duì)于中小企業(yè)、個(gè)人開(kāi)發(fā)者來(lái)說(shuō)非常不友好。
所以,在Diffusion基礎(chǔ)之上又融合了大模型界非常知名的Transformer架構(gòu),通過(guò)獨(dú)立的權(quán)重處理圖像和文本模態(tài),并實(shí)現(xiàn)了這兩種模態(tài)之間的雙向信息流。
Diffusion Transformer架構(gòu)引入新的噪聲采樣技術(shù),改進(jìn)了訓(xùn)練Rectified Flow模型的方法。通過(guò)偏向感知上相關(guān)的尺度,提高了訓(xùn)練的效率和性能。
該架構(gòu)采用了模擬無(wú)關(guān)的流訓(xùn)練方法,直接回歸一個(gè)向量場(chǎng),用于生成數(shù)據(jù)分布和噪聲分布之間的概率路徑,有效避免了求解常微分方程所帶來(lái)的超高算力成本,同時(shí)也極大增強(qiáng)了文本語(yǔ)義理解、文字嵌入和圖片樣式等。
其實(shí)在Stability AI發(fā)布預(yù)覽版時(shí),已經(jīng)公布了一大批Stable Diffusion 3生成的圖片,基本上與Midjourney、DALL·E 3這兩款知名產(chǎn)品差不多。
例如,教室里,黑板上用白色粉筆寫(xiě)著 "GPUs go brrmr",這是一個(gè)肯定而幽默的場(chǎng)景。黑板前,一群學(xué)生正在慶祝。這些學(xué)生被獨(dú)特地描繪成鱷梨,長(zhǎng)著小胳膊小腿,臉上洋溢著喜悅和興奮的表情。
這個(gè)場(chǎng)景捕捉到了一種充滿童趣和想象力的氛圍,將傳統(tǒng)教室的概念與牛油果學(xué)生的奇特形象融為一體。
一只半透明的豬,里面是一只更小的豬。
一只青蛙坐在20世紀(jì)50年代的快餐廳里,穿著皮夾克,戴著禮帽。桌子上有一個(gè)巨大的漢堡和一個(gè)寫(xiě)著“Froggy Fridays”的牌子。
一只巨大、威嚴(yán)的白色巨龍,它有多個(gè)角和類似須的觸角,翱翔在崎嶇的山脈景觀之上。
這條龍有著明亮的橙色眼睛,似乎在清澈的藍(lán)天下飛翔在蓬松的白云之間。周圍有尖銳的積雪覆蓋的山峰,以及一座類似古代寺廟或塔樓的小建筑。
目前,Stable Diffusion 3 Medium模型只能用于學(xué)術(shù)研究無(wú)法商業(yè)化。如果在正式開(kāi)源后,想商業(yè)化的開(kāi)發(fā)者可以聯(lián)系Stability AI。
想使用Stable Diffusion 3 Turbo和其他版本的需要開(kāi)通Stability AI的會(huì)員。
申請(qǐng)地址:https://stability.ai/stablediffusion3