亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

首頁  >  資訊  >  文章
2024-02-23 09:56

Stability AI發(fā)布自家最強(qiáng)文生圖模型Stable Diffusion 3!提示文本理解更好,圖像質(zhì)量更強(qiáng)

2月23日,著名大模型開源平臺stability.ai在官網(wǎng)推出了——Stable Diffusion 3.

該版本與Stable Diffusion 2相比,在文本語義理解、色彩飽和度、圖像構(gòu)圖、分辨率、類型、質(zhì)感、對比度等方面大幅度增強(qiáng),可對標(biāo)閉源模型Midjourney。

Stable Diffusion 3的參數(shù)在8億——80億之間,也就是說Stable Diffusion 3可能是專為移動設(shè)備開發(fā)的,AI算力消耗將更低,推理速度卻更快。

目前,Stable Diffusion 3支持申請使用,未來會擴(kuò)大測試范圍。

申請地址:https://stability.ai/stablediffusion3

圖片

stability.ai沒有過多的介紹Stable Diffusion 3的技術(shù)內(nèi)容,但指出其核心架構(gòu)使用了Transformer和Flow FMatching(簡稱“FM”)。

Transformer大家都很熟悉了,ChatGPT、T5 、BERT等很多著名模型都是基于該架構(gòu)開發(fā)的。

而FM是Meta AI和魏茨曼科學(xué)研究所在2022年10月發(fā)布的,一種全新高效建模、訓(xùn)練技術(shù)概念。

Flow Matching論文地址:https://arxiv.org/abs/2210.02747

Flow Matching簡單介紹

目前,很多文生圖模型使用的是CNF(連續(xù)正規(guī)化流動)訓(xùn)練方法,主要使用常微分方程對流動進(jìn)行建模,實(shí)現(xiàn)從一種已知分布到目標(biāo)分布的平滑映射。

但由于訓(xùn)練過程需要進(jìn)行大量的微分方程模擬,會導(dǎo)致算力成本高、模型設(shè)計復(fù)雜、可解釋性差等缺點(diǎn)。

FM則是放棄微分方程的直接模擬,而是通過回歸固定條件概率軌跡來實(shí)現(xiàn)無模擬訓(xùn)練。研究人員設(shè)計了條件概率分布與向量場的概念,利用邊緣分布的結(jié)合可以建立總體目標(biāo)概率軌跡與向量場,從而消除了模擬過程對梯度計算的影響。

圖片

1)條件概率路徑構(gòu)建:FM需要給出一個目標(biāo)概率路徑,該路徑從簡單分布演變到逼近數(shù)據(jù)分布。然后利用條件概率路徑構(gòu)建了目標(biāo)路徑,這樣每個樣本有一個對應(yīng)的條件路徑。

2)變換層:構(gòu)成FM的基本單元,每個變換層都是可逆的。這意味著從輸入到輸出的每一步映射都可以精確地反轉(zhuǎn),從而允許從目標(biāo)分布反推到原始分布。

3)耦合層:將輸入分成兩部分,對其中一部分應(yīng)用變換,而變換函數(shù)可以是任意的神經(jīng)網(wǎng)絡(luò),其參數(shù)由另一部分決定,保證了變換的可逆性。

目前,F(xiàn)M技術(shù)已在圖像生成與超分辨率、圖像理解、圖像修復(fù)與填充、條件圖像生成、圖像風(fēng)格遷移與合成、視頻處理等領(lǐng)域得到廣泛應(yīng)用。

Stable Diffusion 3案例展示

本次的發(fā)布頁面也是由Stable Diffusion 3生成的,提示詞:史詩般的動漫藝術(shù)風(fēng)格,一位巫師站在夜間的山頂上,向黑暗的天空施放咒語,上面寫著由彩色能量生成的“Stable Diffusion 3”文字

圖片

教室桌子上有一個紅蘋果,電影風(fēng)格,背景的黑板上用粉筆寫著“要么做大,要么回家”

圖片

一名宇航員騎著一只穿著蓬蓬裙的豬,撐著一把粉色的傘,豬旁邊的地上有一只戴著高帽的知更鳥,角落里寫著" Stable Diffusion "的字樣。

圖片

一只變色龍,黑色背景,攝影風(fēng)格。

圖片

一輛跑車的夜間照片,側(cè)面寫有“SD3”字樣,汽車在賽道上高速行駛,巨大的路標(biāo)上寫著“更快”的文字。

圖片

波浪沖擊蘇格蘭燈塔的魚眼鏡頭照片,黑色波浪。

圖片

2
查看相關(guān)話題: