Stable Diffusion學(xué)習(xí)指南【圖生圖篇】丨圖生圖模塊工作原理、各類操作工具和圖像重繪應(yīng)用方向
即使之前在Midjourney中有過圖生圖的使用經(jīng)驗(yàn),但大部分人對該功能的印象僅限于喂圖,通過它可以讓模型了解更多我們要傳達(dá)的信息,從而達(dá)到準(zhǔn)確出圖的目的。但在Stable Diffusion中的圖生圖還要強(qiáng)大的多,除了控圖還包含了手動涂鴉、局部重繪、圖像擴(kuò)展等更多功能。
今天的文章里我會為你詳細(xì)介紹圖生圖的工作原理、工具解析和圖像重繪的應(yīng)用方向,如果沒有看過【文生圖篇】的朋友建議先去學(xué)習(xí)下,以便你更好的理解今天的內(nèi)容。
1.1 傳統(tǒng)意義上的喂參考圖
我們都知道,模型在運(yùn)算時(shí)是根據(jù)我們提供的提示內(nèi)容來確定繪圖方向,如果沒有提示信息,模型只能根據(jù)此前的學(xué)習(xí)經(jīng)驗(yàn)來自行發(fā)揮。在之前的文生圖篇,我們介紹了如何通過提示詞來控制圖像內(nèi)容,但想要實(shí)現(xiàn)準(zhǔn)確的出圖效果,只靠簡短的提示詞是很難滿足實(shí)際需求的。
AI繪畫的隨機(jī)性導(dǎo)致我們使用大段的提示詞來精確描述我們想要的畫面內(nèi)容,但畢竟文字能承載的信息量有限,即使我們寫了一大段咒語,模型也未必能準(zhǔn)確理解,不排除有時(shí)候還會出現(xiàn)前后語義沖突的情況。其實(shí)這個(gè)過程就像甲方給我們明確設(shè)計(jì)方向,除了重復(fù)溝通想要的畫面內(nèi)容外,有沒有什么比口述更高效的溝通方式呢?這個(gè)時(shí)候,有經(jīng)驗(yàn)的甲方會先去找?guī)讖埬繕?biāo)風(fēng)格的競品圖,讓我們直接按照參考圖的感覺走。
【感覺】這個(gè)詞聽起來似乎虛無縹緲,但在AI繪畫領(lǐng)域是有實(shí)際道理的,因?yàn)閳D像能承載的信息要比文字多得多。以上面這張圖為例,如果用提示詞描述,可能寫上幾百字都難以向模型解釋清楚畫面的內(nèi)容,但圖生圖不同,模型會自動從參考圖上提取像素信息,并將其作為特征向量準(zhǔn)確映射到最終的繪圖結(jié)果上,通過這樣的方式能最大程度還原參考圖中的提示信息,實(shí)現(xiàn)更穩(wěn)定準(zhǔn)確的出圖效果。
因此,傳統(tǒng)意義上的圖生圖就是將提示詞和參考圖中的圖像信息進(jìn)行綜合考慮并進(jìn)行繪圖的過程。
1.2 真正強(qiáng)大的圖像重繪
當(dāng)然,如果僅僅是喂圖功能,Stable Diffusion的圖生圖板塊并不值得我們單獨(dú)花一篇文章來講解,它的真正價(jià)值在于提供了豐富的操作工具將圖像可控性提升到了新的層次。
我們先來回顧下平時(shí)使用文生圖進(jìn)行AI繪畫的過程:編寫提示詞進(jìn)行繪圖,然后根據(jù)出圖結(jié)果再不斷優(yōu)化提示詞和各類參數(shù)進(jìn)行抽獎(jiǎng),最終得到一張比較滿意的圖片。而圖生圖則是直接根據(jù)現(xiàn)有圖片進(jìn)行優(yōu)化調(diào)整,因此圖生圖的操作過程可以簡單理解成省去了前期文生圖的抽獎(jiǎng)過程,直接在現(xiàn)有圖像約束的基礎(chǔ)上進(jìn)行的二次重繪。
需要注意的是,配合參考圖進(jìn)行圖生圖的過程是需要將參考圖先逆向推導(dǎo)為潛空間的數(shù)據(jù),再和提示詞綜合考慮繪制成圖像。因此相比沒有逆向推導(dǎo)過程的文生圖,圖生圖的繪制會占用更多的系統(tǒng)資源,根據(jù)這個(gè)原理,我們也就能理解使用參考圖的尺寸越大,在逆向推導(dǎo)的過程中消耗的資源也會越多。
在Stable Diffusion中,我們可以通過蒙版和局部重繪等功能來控制只對圖像特定部分的區(qū)域進(jìn)行重繪,并設(shè)置各類參數(shù)來控制重繪的效果。此外通過選擇不同的繪圖模型和調(diào)整圖像尺寸,我們也能甚至還能實(shí)現(xiàn)畫風(fēng)轉(zhuǎn)換、圖像無損放大等更多玩法。相較于其他AI繪畫工具,Stable Diffusion中的圖生圖并非單純的喂參考圖,而是可以在現(xiàn)有圖片的基礎(chǔ)上通過人工干預(yù)來實(shí)現(xiàn)更加穩(wěn)定可控的圖像重繪。
在WebUI的功能導(dǎo)航欄中選擇圖生圖模塊,我們可以看到它的頁面布局和文生圖基本類似,同樣有提示詞輸入框、操作按鈕和參數(shù)設(shè)置項(xiàng),不同的是這里多了提示詞反推、支持上傳圖片的二級功能模塊和對應(yīng)的參數(shù)設(shè)置項(xiàng)。
2.1 提示詞反推
先來看提示詞反推的功能:即根據(jù)提供的圖片自動反推出匹配的文本關(guān)鍵詞,也就是我們俗稱的圖生文功能。WebUI這里提供了Clip反推和DeepBooru反推2種反推操作,其區(qū)別在于:
Clip反推:推導(dǎo)出的文本傾向于自然語言的描述方式,即完整的描述短句,該功能的特點(diǎn)是可以描述出畫面中對象間的關(guān)系
DeepBooru反推:推導(dǎo)結(jié)果更多的是單詞或短句,比較類似我們平時(shí)書寫提示詞的方式,該功能更傾向于描述對象特征
不難看出,通過Clip和DeepBooru反推的提示詞中包含不少錯(cuò)誤標(biāo)簽,需要人工進(jìn)行二次篩選。其實(shí),WebUI在圖生圖模塊內(nèi)置提示詞反推是為了在上傳圖片后可直接獲取相應(yīng)的參考關(guān)鍵詞,以便后面更好的通過提示詞來控制重繪圖像內(nèi)容。但實(shí)際上我們平時(shí)反推提示詞時(shí)更常使用的是秋葉整合包中自帶的Tagger插件,該插件除了生成的提示詞準(zhǔn)確度和穩(wěn)定更高,還提供了關(guān)鍵詞分析和排名展示,屬于Stable Diffusion的必備插件之一。
在Stable Diffusion中有非常多類似的開源插件可以有效提升繪圖效率,但不屬于本篇文章重點(diǎn),這里就不過多介紹了。
2.2 二級工具欄概覽
在圖生圖模塊中為我們內(nèi)置了許多二級工具欄,很多朋友看到這樣可能會擔(dān)心學(xué)習(xí)起來很復(fù)雜。但其實(shí)這里每款工具其實(shí)都是在上一個(gè)工具基礎(chǔ)上進(jìn)行的衍生,比如涂鴉和局部重繪是在原生圖生圖基礎(chǔ)上增加了手繪和蒙版,而涂鴉重繪又是這2款工具的結(jié)合。系統(tǒng)來看,所有的二級工具都是圍繞圖像重繪、手繪涂鴉和蒙版選區(qū)這3個(gè)基礎(chǔ)功能所進(jìn)行的重組,而WebUI作者是為了方便我們使用將實(shí)際操作場景進(jìn)行了細(xì)分。
上圖中整理了不同工具的簡介和差異對比,下面針對每款工具和相關(guān)參數(shù)為大家進(jìn)行詳細(xì)介紹。
2.3 圖生圖工具
這部分的操作和文生圖基本相同,區(qū)別在于支持額外上傳參考圖并增加了幾項(xiàng)圖生圖專屬的參數(shù)。下面介紹幾項(xiàng)影響圖生圖效果的重要參數(shù),這也是所有二級模塊都需要用到的參數(shù),其中和文生圖模塊中相同的參數(shù)這里就不再贅述了,大家可以回顧下【文生圖篇】的相關(guān)內(nèi)容。
2.3.1 重繪幅度
重繪幅度可以說是圖生圖中最重要的參數(shù),它的功能有點(diǎn)類似Midjourney中的iw參數(shù)。前面介紹圖生圖的原理是在原圖基礎(chǔ)上繪制一張新的圖片,而重繪幅度就是用來控制在原圖基礎(chǔ)上重繪的發(fā)散性程度,數(shù)值越高,說明模型重繪過程中更加自由,繪制結(jié)果和原參考圖的差異性越大,生成的圖像也就更傾向于模型自身的繪圖風(fēng)格。
可以看到當(dāng)重繪幅度過高時(shí),繪制的圖像內(nèi)容和原圖基本就很難進(jìn)行關(guān)聯(lián)了,因此我們通常將重繪幅度的數(shù)值控制在0.4~0.8之間,這樣既能維持參考圖的控圖效果,又能保證重繪后不會發(fā)生太強(qiáng)烈的變化。但從重繪幅度角度來看圖像可操作的范圍并不大,該參數(shù)的更多場景是配合其他功能項(xiàng)進(jìn)行靈活調(diào)節(jié),在下面的內(nèi)容中我會配合各類工具進(jìn)行詳細(xì)介紹。
2.3.2 重繪尺寸
故名思義,該參數(shù)用于設(shè)置重繪后的圖像尺寸,可以分為直接設(shè)置圖像寬高和設(shè)置圖像縮放倍數(shù)2種調(diào)節(jié)方式。
默認(rèn)情況下重繪尺寸會自動帶入當(dāng)前參考圖的寬高數(shù)值,而當(dāng)我們拖動尺寸滑塊時(shí),可以直觀的在參考圖上預(yù)覽重繪后的圖像范圍。
2.3.3 縮放模式
很多時(shí)候我們的參考圖和重繪后的圖片尺寸并不一致,而縮放模式就是用來選擇采用何種變形方式來處理圖像。這里雖然提供了4個(gè)按鈕,但是可以分為2類場景來使用。一種是圖像長寬比發(fā)生變化時(shí)使用,這里提供了3種我們常見的處理方式:拉伸、裁剪、填充(由于漢譯插件不同,在名稱上存在一定差異)。另一種是圖像長寬比例不變時(shí)使用,多數(shù)情況下用于圖像等比放大。
換句話說,如果重繪后的圖像尺寸和原圖完全一樣,這幾種縮放模式使用起來并沒有區(qū)別。
下面我們來挨個(gè)介紹不同縮放模式的效果差異。首先是拉伸模式(僅調(diào)整大?。?,它的效果是將原圖直接變形拉伸至新設(shè)定的尺寸。在下面的圖中可以看到,在重繪幅度參數(shù)設(shè)置為0時(shí),圖像被直接變形拉伸為正方形,而隨著提升重繪幅度,變形效果逐漸得到緩解,但同樣也會導(dǎo)致和原圖差異過大。
第二種裁剪模式(即裁剪后縮放)是根據(jù)新設(shè)定圖像的長寬比,對原參考圖的內(nèi)容進(jìn)行裁切。重繪后尺寸由矩形變?yōu)檎叫?,上下部分?nèi)容被裁切,這里的重繪幅度參數(shù)不會對圖像的長寬比例產(chǎn)生影響。
第三個(gè)填充模式(縮放后填充空白)的效果根據(jù)新設(shè)定的長寬比例,將原圖缺失的部分進(jìn)行繪制填充。比如當(dāng)圖像從原圖的512*768重繪為768*768時(shí),下圖的效果就是向左右填充了新的背景內(nèi)容,且隨著重繪幅度數(shù)值越大,填充部分和原圖的融合效果越好。
最后一種縮放模式叫調(diào)整大小(潛空間放大),有的地方也叫直接縮放,該功能主要用于對圖像進(jìn)行等比放大,實(shí)現(xiàn)“小圖轉(zhuǎn)大圖”的效果。當(dāng)然如果重繪尺寸比例和原圖比例不一致,則默認(rèn)會采用拉伸的方式進(jìn)行處理,但由于是反饋到潛空間中進(jìn)行運(yùn)算,因此圖像出現(xiàn)了模糊變形的效果。
相較于單純增加分辨率的放大做法,圖生圖中使用調(diào)整大小模式有重繪幅度參數(shù)可供調(diào)節(jié),少量的重繪幅度可以為原圖增加更多細(xì)節(jié)。
當(dāng)然添加重繪幅度的弊端是不可避免的會導(dǎo)致圖像發(fā)生改變,想要實(shí)現(xiàn)更好的效果還有更多定制插件可以實(shí)現(xiàn)低顯存繪制高清大圖,此處先按下不表。
對于調(diào)整大小功能的潛空間放大算法,我們可以在設(shè)置-放大-圖生圖放大算法中進(jìn)行切換,選擇之后記得保存設(shè)置并重啟webUI界面。
綜合使用場景來看,除非是需要對圖像進(jìn)行畫布拓展,否則多數(shù)情況下還是建議先將參考圖裁剪到目標(biāo)比例再導(dǎo)入圖生圖中使用,這樣的出圖效果會更加可控。
下面我們再來看看圖生圖模塊下的其他二級工具及參數(shù),由于漢化差異,二級工具的名稱可能不同,比如涂鴉重繪有的翻譯插件下也被稱作有色蒙版重繪。
2.4 涂鴉工具
再來看看第二個(gè)涂鴉工具,涂鴉工具的參數(shù)項(xiàng)和圖生圖完全相同,唯一區(qū)別是上傳圖像后右上角多了畫筆工具,支持我們對圖像進(jìn)行涂抹。涂鴉工具相當(dāng)于增加了我們傳統(tǒng)的手繪過程,在圖片上涂抹色塊后再進(jìn)行全圖范圍的圖生圖,同時(shí)配合提示詞可以實(shí)現(xiàn)更加多樣的重繪效果。
其中畫筆支持調(diào)整調(diào)整筆觸大小和切換顏色,自帶的吸色工具也可以進(jìn)行全屏幕范圍內(nèi)的取色。
在這幾個(gè)操作工具中,返回上一步的按鈕目前還存在bug,有時(shí)候并不會逐步撤回而是將整個(gè)涂鴉筆觸全部清空。并且由于不知名原因,上傳的圖片有時(shí)候會出現(xiàn)報(bào)錯(cuò)或失效等情況,需要?jiǎng)h除當(dāng)前圖片后重新上傳才能。
涂鴉工具的操作很簡單,使用畫筆在圖像上涂抹顏色后點(diǎn)擊生成,Stable Diffusion會將手繪后的圖像進(jìn)行整體重繪,同時(shí)控制重繪幅度和增加描述關(guān)鍵詞可以實(shí)現(xiàn)非常神奇的融圖效果。在下圖中可以看到女孩的衣服會根據(jù)涂鴉部分重繪成紫色的運(yùn)動服,當(dāng)重繪幅度設(shè)置為0.5左右時(shí)達(dá)到比較自然的融合效果。
需要注意的是通過涂鴉工具來重繪圖像時(shí),由于重繪幅度的影響,畫面中未被涂鴉的部分也會發(fā)生變化,因此涂鴉工具是針對畫面整體進(jìn)行重繪。
由于鼠標(biāo)涂鴉的繪制效果不夠準(zhǔn)確,而且涂抹的顏色不支持透明度等細(xì)節(jié)調(diào)整,因此涂鴉工具平時(shí)使用并不多,一般都是導(dǎo)入PS中進(jìn)行細(xì)致的繪制操作,這里就不做過多贅述了。
2.5 局部重繪工具
再來看看局部重繪工具,在前幾天,Midjourney終于上架了大家期待已久的局部重繪功能,應(yīng)該算得上是Midjourney目前在控圖方向上最大的一次邁步,而Stable Diffusion在這塊算得上是深耕已久。簡單來說,局部重繪就是在圖像中設(shè)定一塊區(qū)域,在圖生圖過程中只針對該區(qū)域部分進(jìn)行重繪,而其他部分保持不變,從而實(shí)現(xiàn)精準(zhǔn)控制改變圖像特定部分的效果。該功能通常用于對畫面大部分內(nèi)容都基本滿意,但需要調(diào)整部分細(xì)節(jié)元素的場景。
在下圖中可以看到,局部重繪同樣是使用畫筆進(jìn)行涂抹,但這里涂抹的顏色只有黑色,因?yàn)楸煌磕▍^(qū)域表示的是蒙版,而不是實(shí)際的顏色色塊。
下面我們來看看局部重繪的各項(xiàng)參數(shù)。
蒙版邊緣模糊度:該參數(shù)用于設(shè)置重繪區(qū)域和原圖的融合程度,效果可以簡單理解為PS中的選區(qū)羽化。邊緣模糊度太小會導(dǎo)致邊緣銜接過于生硬,而數(shù)值太高會削弱蒙版的區(qū)域限制效果,導(dǎo)致蒙版不精確或直接失效。默認(rèn)情況下數(shù)值是4.我們可以根據(jù)圖像的融合效果來進(jìn)行適度調(diào)節(jié)。
為方便對比蒙版效果,在下圖的案例中我選擇重繪黑色蒙版之外的區(qū)域,可以發(fā)現(xiàn)當(dāng)邊緣模糊度為0時(shí),蒙版邊緣非常生硬,而隨著數(shù)值變大,重繪區(qū)域和原圖的融合過渡也變得更加自然。
蒙版模式:【重繪蒙版區(qū)域】表示重繪涂抹過的蒙版區(qū)域,【重繪非蒙版區(qū)域】表示涂抹區(qū)域不變,而是重繪畫面中的其他區(qū)域。該參數(shù)類似PS中的選區(qū)反轉(zhuǎn),在實(shí)際使用時(shí)根據(jù)重繪區(qū)域大小自由選擇是涂抹需要重繪的部分還是剩余的背景部分。
蒙版區(qū)域內(nèi)容處理:該選項(xiàng)用于設(shè)置重繪時(shí)的圖像處理方式,這里提供了4個(gè)選項(xiàng):填充、原圖、潛空間噪聲、空白潛空間,具體的效果可以看下圖,相較之下潛空間噪聲會比其他幾項(xiàng)產(chǎn)生出更多變化,而原圖的效果比較穩(wěn)定。
該參數(shù)對繪圖結(jié)果的影響不太穩(wěn)定,一般情況下保持默認(rèn)的【原圖】即可。
重繪區(qū)域:指的是重繪過程中用于參考的圖像范圍。在下圖中可以清楚的看到,當(dāng)重繪區(qū)域設(shè)置為【僅蒙版區(qū)域】時(shí),繪制的部分只有涂抹的蒙版部分區(qū)域的元素,相當(dāng)于把涂抹區(qū)域切割下來單獨(dú)進(jìn)行重繪,該選項(xiàng)下會打斷選區(qū)和參考圖其他部分的聯(lián)系,最終畫面的融合效果可能會下降。
僅蒙版區(qū)域下邊緣預(yù)留像素:該參數(shù)只在重繪區(qū)域選擇了【僅蒙版區(qū)域】時(shí)生效,用于控制切割下來重繪部分向外擴(kuò)展的范圍大小。觀察下面重繪過程的進(jìn)度圖可以發(fā)現(xiàn),邊緣預(yù)留像素的數(shù)值越大,則繪制過程中會向四周裁剪更多的內(nèi)容進(jìn)行整體重繪。
在默認(rèn)情況下局部重繪會參考全圖進(jìn)行繪制,并且被涂抹的范圍并不代表都會發(fā)生變化,所以通常我們會在目標(biāo)區(qū)域基礎(chǔ)上對外再涂抹一部分區(qū)域,以保證重繪后更好的融合效果,而提高邊緣預(yù)留像素也是同樣的原理。
總結(jié)來看,由于手涂蒙版的方式比較方便也很自由,因此局部重繪被廣泛用于圖像的局部調(diào)整,比如常見的臉部修復(fù)、手部修復(fù)等。
2.6 涂鴉重繪工具
涂鴉重繪工具可以理解為涂鴉+蒙版的結(jié)合,相當(dāng)于在涂抹顏色的同時(shí)加上了局部重繪的蒙版,只不過這個(gè)過程中顏色涂抹和蒙版繪制是同時(shí)進(jìn)行的。因此和局部重繪相比,涂鴉重繪多了一個(gè)參數(shù)項(xiàng):蒙版透明度。
蒙版透明度設(shè)置的是涂抹色塊在畫面中的呈現(xiàn)效果:當(dāng)透明度設(shè)置為0時(shí)涂抹顏色完全覆蓋下方圖片,此時(shí)等同于涂鴉工具的效果,50%時(shí)相當(dāng)于半透明色塊,而達(dá)到100%時(shí)蒙版完全透明,相當(dāng)于色塊消失。需要注意的是,當(dāng)透明度過高時(shí)涂抹色塊可能無法被Stable Diffusion準(zhǔn)確識別,繪制結(jié)果中會直接呈現(xiàn)出半透明色塊效果(如下圖中的50%透明度時(shí))。
下面舉個(gè)實(shí)際案例,我們希望實(shí)現(xiàn)長裙變短裙的效果。如果只是單純的局部重繪,重繪的部分始終會受到原圖其他部分的影響出現(xiàn)裙擺,但這里的重繪幅度又不能調(diào)整過高,否則和原圖會產(chǎn)生明顯的割裂感。
但使用了涂鴉重繪相當(dāng)于給Stable Diffusion提供了大概的范圍參考,并且由于可以自由設(shè)置繪制色塊的不透明度,不用擔(dān)心完全覆蓋原圖內(nèi)容,在整個(gè)重繪操控上更加準(zhǔn)確和穩(wěn)定。
對比來看,涂鴉重繪比單純的涂鴉工具多了蒙版的局部控圖效果,又比局部重繪工具多了顏色的指導(dǎo)作用,可以說是兩款工具的結(jié)合體。
2.7 上傳重繪蒙版工具
雖然涂鴉重繪效果很好,但畢竟手動涂抹的方式不夠準(zhǔn)確,因此WebUI也提供了自行上傳蒙版的方法來精準(zhǔn)控制重繪區(qū)域。上傳重繪蒙版和局部重繪的頁面基本相同,區(qū)別在于支持額外上傳一張已繪制好的蒙版圖。
這里蒙版圖片的顏色含義和PS中的蒙版相同,白色表示有內(nèi)容,黑色表示為空,因此白色區(qū)域內(nèi)的圖像會被進(jìn)行重繪。相信很多朋友都出現(xiàn)過黑白蒙版傻傻分不清楚的情況,這里給大家分享個(gè)小妙招。我們只要將蒙版圖想象成黑板即可,黑色表示默認(rèn)的空白,白色即粉筆填充后的內(nèi)容。
需要注意的是,在Stable Diffusion中表示半透明蒙版的灰色并不適用,因此像黑白漸變的蒙版圖不起效果,我們平時(shí)用黑白純色即可。
上傳蒙版的優(yōu)勢在于我們可以精準(zhǔn)控制蒙版范圍,通常在PS中進(jìn)行摳圖并填充成黑白蒙版圖,再上傳到Stable Diffusion中進(jìn)行使用。
2.8 批量處理工具
最后還有個(gè)批量處理工具,顧名思義可以批量對圖像進(jìn)行重繪操作。只需設(shè)置到相關(guān)參數(shù)和提示詞,設(shè)置到參考圖文件夾和輸出文件夾就能實(shí)現(xiàn)批量重繪。我們平時(shí)在抖音上看到那種用拍攝視頻轉(zhuǎn)換AI繪圖視頻也是同樣的原理,通過將視頻拆解成逐幀圖片再進(jìn)行重繪,但目前開源社區(qū)中有用于制作動態(tài)視頻更好用的插件,這里就不再贅述了。
由于各款工具的名稱都比較相似,加上不同功能項(xiàng)的調(diào)節(jié)參數(shù)和使用方法都不同,新手在學(xué)習(xí)圖生圖模塊時(shí)很容易把各類功能弄混淆。因此,在學(xué)習(xí)這類AI繪畫工具時(shí),我更建議大家按照下面重繪應(yīng)用方向的思路來理解,而不是單純的從工具角度學(xué)習(xí)。
3.1 重繪的3個(gè)應(yīng)用方向
我們前面提到圖生圖的本質(zhì)是進(jìn)行圖像的二次重繪,根據(jù)繪制區(qū)域的差異,可以將重繪功能劃分為整體重繪、局部重繪和圖像擴(kuò)展三個(gè)方向:
回過頭來看,文生圖、圖生圖、涂鴉都相當(dāng)于整體重繪功能,而局部重繪、涂鴉重繪和上傳重繪蒙版則是局部重繪功能,至于圖像擴(kuò)展則是在圖像比例發(fā)生變化且縮放模式選擇填充時(shí)啟用。
我們橫向?qū)Ρ绕渌ぞ邅砜?,整體重繪、局部重繪和圖像擴(kuò)展可以說是所有圖像處理工具的基礎(chǔ)功能,畢竟可控性在商業(yè)領(lǐng)域的價(jià)值很多時(shí)候比創(chuàng)意性更加重要,而可以將兩者結(jié)合起來靈活使用的AI繪畫工具才稱得上是行業(yè)翹楚。這也是為什么PS的創(chuàng)意生成和畫布拓展繪制功能剛一推出就引起廣泛熱議,而像Midjourney近期更新的Zoom Out圖像擴(kuò)展和Vary(Region)局部重繪等功能同樣也是在向控圖穩(wěn)定性方向發(fā)展。
3.2 圖生圖中的提示詞
前面提到圖生圖本質(zhì)是增加了參考圖的約束,雖然提示詞的信息權(quán)重被參考圖削弱了一部分,但并不意味著提示詞就沒用了。相反,很多時(shí)候還是需要通過提示詞來告訴Stable Diffusion我們希望繪制的內(nèi)容。這時(shí)候有朋友會問,那我們是只填寫需要重繪部分的內(nèi)容還是將畫面全部內(nèi)容進(jìn)行完整描述呢?其實(shí),圖生圖的提示詞填寫要根據(jù)實(shí)際的出圖效果來調(diào)整。
當(dāng)我們只希望更改畫面中的部分元素而其他部分不變時(shí),就需要在提示詞中將不更改的部分進(jìn)行保留,并對修改部分進(jìn)行調(diào)整或補(bǔ)充描述,為了保證出圖效果還可以靈活增加對應(yīng)關(guān)鍵詞的權(quán)重。
而當(dāng)局部重繪時(shí),如果繪制部分和原有圖像的融合效果不佳,我們可以增加蒙版部分之外的內(nèi)容描述來加強(qiáng)和畫面其他部分的聯(lián)系,比如下面的圖中通過交互動作來增加重繪后手部和環(huán)境的融合效果。
以上案例只針對提示詞進(jìn)行了調(diào)整,實(shí)際使用時(shí)像seed值、重繪幅度、繪圖模型等因素也要進(jìn)行靈活考慮。
3.3 圖生圖和高清修復(fù)
如果有仔細(xì)觀察的小伙伴應(yīng)該已經(jīng)發(fā)現(xiàn)了,圖生圖中并沒有提供文生圖中的高清修復(fù)選項(xiàng),這是因?yàn)楦咔逍迯?fù)的本質(zhì)就是進(jìn)行了一次額外圖生圖操作,同樣是先生成小圖再進(jìn)行放大,所以在圖生圖中想實(shí)現(xiàn)高清修復(fù),只需將圖像尺寸調(diào)大進(jìn)行重繪即可,此外高清修復(fù)這一特性在圖生圖中有更多使用場景。
不知道大家平時(shí)是否發(fā)現(xiàn)過這樣的現(xiàn)象,當(dāng)人物在畫面中占比越小,出圖結(jié)果中出現(xiàn)臉部崩壞的情況就越常見,而當(dāng)對人物臉部特寫時(shí)很少出現(xiàn)崩壞情況。這是因?yàn)镾table Diffusion模型在逆向擴(kuò)散的過程中對大區(qū)域的圖像去噪處理會更加清晰,因此更擅長繪制畫面中占比大的事物,通過利用這一點(diǎn)我們可以將圖像中不清晰的小圖截取出來進(jìn)行放大重繪,然后再放回原圖位置,即可有效修復(fù)局部變形的情況。
04,結(jié)束撒花
在今天文章里,我為大家介紹了Stable Diffusion中圖像重繪的作用、各類工具和參數(shù)的功能解析以及關(guān)于圖像重繪的學(xué)習(xí)思路。相比于文生圖的一步成型,圖生圖更多是碎片化的使用思路,需要通過不斷的修飾和調(diào)整局部細(xì)節(jié)來得到我們想要的圖片。
回顧近幾篇的文章內(nèi)容,從文生圖到圖生圖,從局部重繪再到上傳重繪蒙版,不難發(fā)現(xiàn)我們對Stable Diffusion的學(xué)習(xí)是從發(fā)散向可控的方向逐漸遞進(jìn),而聊到可控性就不得不提Stable Diffusion中大名鼎鼎的ControlNet,在下篇文章中我會為你詳細(xì)介紹這款真正讓Stable Diffusion立足AI繪畫之巔的神級插件。今天文章就到這里結(jié)束啦,我們下期再見?
作者的公眾號二維碼丨掃一掃,關(guān)注我
??我是樂伊Roy
探索AIGC領(lǐng)域的體驗(yàn)設(shè)計(jì)師
近期文章
更多