亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

首頁  >  資訊  >  文章
2024-02-21 11:27

英偉達推出免訓練,可生成連貫圖片的文生圖模型ConsiStory

目前,多數(shù)文生圖模型皆使用的是隨機采樣模式,使得每次生成的圖像效果皆不同,在生成連貫的圖像方面非常差。

例如,想通過AI生成一套圖像連環(huán)畫,即便使用同類的提示詞也很難實現(xiàn)。雖然DALL·E 3和Midjourney可以對圖像實現(xiàn)連貫的生成控制,但這兩個產(chǎn)品都是閉源的。

因此,英偉達和特拉維夫大學的研究人員開發(fā)了免訓練一致性連貫文生圖模型——ConsiStory。(即將開源)

論文地址:https://arxiv.org/abs/2402.03286

圖片

目前,文生圖模型在生成內(nèi)容一致性方面比較差的原因主要有兩個:1)無法識別和定位圖像中的共同主體,文生圖像模型沒有內(nèi)置的對象檢測或分割模塊,很難自動識別不同圖像中的相同主體;

2)無法在不同圖像中保持主體的視覺一致性,即使定位到主體,也很難使不同步驟中獨立生成的主體在細節(jié)上保持高度相似。

主流解決這兩種難題的方法是,基于個性化和編碼器的優(yōu)化方法。但這兩類方法都需要額外的訓練流程,例如,針對特定主體微調(diào)模型參數(shù),或使用目標圖像訓練編碼器作為條件。

即便使用了這種優(yōu)化方法,訓練周期較長難以擴展到多個主體,且容易與原始模型分布偏離。

而ConsiStory提出了一種全新的方法,通過共享和調(diào)整模型內(nèi)部表示,可以在無需任何訓練或調(diào)優(yōu)的情況下實現(xiàn)主體的一致性。

值得一提的是,ConsiStory可以作為一種插件,幫助其他擴散模型提升文生圖的一致性和連貫性。

主體驅(qū)動自注意力(SDSA)

SDSA是ConsiStory的核心模塊之一,可以在生成的圖像批次中共享主體相關的視覺信息,使不同圖像中的主體保持一致的外觀。

SDSA主要擴大了擴散模型中自注意力層,允許一個圖像中的“提示詞”不僅可以關注自己圖像的輸出結(jié)果,還可以關注批次中其他圖像的主體區(qū)域的輸出結(jié)果。

這樣主體的視覺特征就可以在整個批次中共享,不同圖像中的主體互相"對齊"。

圖片

為了防止背景區(qū)域之間的敏感信息泄露,該模塊使用主體分割蒙版來進行遮蔽——每個圖像只能關注批次中其他圖像主體區(qū)域的輸出結(jié)果。

圖片

主體蒙版是通過擴散模型本身的交叉注意力特征自動提取。

特征注入

為了進一步增強主體不同圖像之間細節(jié)層面的一致性,“特征注入”基于擴散特征空間建立的密集對應圖,可以在圖像之間共享自注意力輸出特征。

同時圖像中一些相似的優(yōu)化地方之間共享自注意力特征,這可以有效確保主體相關的紋理、顏色等細節(jié)特征在整個批次中互相"對齊"。

圖片

特征注入也使用主體蒙版進行遮蔽,只在主體區(qū)域執(zhí)行特征共享。同時還設置相似度閾值,只在足夠相似的優(yōu)化之間執(zhí)行。

錨圖像和可重用主體

ConsiStory中的錨圖像提供了主題信息的參考功能,主要用于引導圖像生成過程,確保生成的圖像在主題上保持一致。

錨圖像可以是用戶提供的圖像,也可以是從其他來源獲取的相關圖像。在生成過程中,模型會參考錨圖像的特征和結(jié)構(gòu),并盡可能地生成與一致性的圖像。

圖片

可重用主體是通過共享預訓練模型的內(nèi)部激活,來實現(xiàn)主題一致性的方法。在圖像生成過程中,模型會利用預訓練模型的內(nèi)部特征表示來對生成的圖像進行對齊,而無需進一步對齊外部來源的圖像。

也就是說生成的圖像可以相互關注、共享特征,這使得ConsiStory實現(xiàn)了0訓練成本,避免了傳統(tǒng)方法中需要針對每個主題進行訓練的難題。

2
查看相關話題: #英偉達 #文生圖 #consistory

相關文章