Midjourney V6正式亮相,新功能詳細(xì)解析:繪圖細(xì)節(jié)拉滿叫板DALL·E 3,重新定義提示詞規(guī)則丨附V6提示詞指南
當(dāng)?shù)貢r間12月20日,Midjourney終于在社區(qū)發(fā)布了它訓(xùn)練了9個月的第六代文生圖模型Midjourney V6。
?相關(guān)閱讀:
重磅!AI繪畫龍頭Midjourney V6版本史詩升級:神圖頻曝直逼真實世界,全網(wǎng)驚呼出圖以假亂真!最快兩天內(nèi)上線
當(dāng)?shù)貢r間12月20日,Midjourney的最新版本V6開啟了第二次社區(qū)內(nèi)測評價。借助用戶進行人工標(biāo)注,上線倒計時,已經(jīng)開始!
這段時間,包括Stability AI都開始卷AI視頻了,但是Midjourney卻慢吞吞的不知道在干嘛。這段時間里DALL·E 3給了驚人的自然語言式文生圖,完全摒棄了提示詞那套。Stable Diffusion在開源和可控性上遙遙領(lǐng)先切入了文生圖的商業(yè)化落地領(lǐng)域。
那么一直號稱秉持“中庸之道”的Midjourney在這半年里沒有太多的動作,而今終于趕在年末發(fā)布新版本。
這次的Midjourney V6可以給大家?guī)硇┦裁茨兀?/p>
大家好,我們將在寒假期間讓社區(qū)測試我們的V6模型的Alpha版本,從此刻(當(dāng)?shù)貢r間12月20日)開始。
要啟用它,請在/settings下的下拉菜單中選擇V6,或在您的提示詞后輸入 --v 6。
V6基礎(chǔ)模型有什么新變化?
這個文本提示我嘗試了,確實只有在低 --stylize 的時候才管用,在默認(rèn)值的情況下文字的繪制能力并不好:
這是在默認(rèn)情況下繪制的「MJ V6」這樣簡單的文字,但是四張圖里幾乎沒有一張可用的。
但是在修改 --stylize 到一個非常低的值之后就好了很多。
--ar, --chaos, --weird, --tile , --stylize, --style raw , Vary (subtle) ,Vary (strong), Remix, /blend ,/describe (僅V5版本)
嘗試了 /blend 和圖像提示的功能,基本都支持,以下是混了了香水和一個美少女的圖。細(xì)節(jié)很好,雖然可控性還是不太行。
這些功能尚未支持,但應(yīng)該在未來一個月內(nèi)推出。
Pan, Zoom, Vary (region), /tune, /describe (一個新的v6版本)
簡單的說就是之前的那套提示詞規(guī)則沒用了,白學(xué)了。
這也是我覺得提示詞工程最大的問題,每次模型的更替會讓所有的規(guī)則推倒重來,之前的累積變得毫無意義,從這個角度上講DALL·E 3的自然語言交互,與Stable Diffusion的高可控性會更靠譜些。不過本文的第二部分會附帶Midjourney官方給的一些V6提示詞指南。
這個模型可以生成比我們之前發(fā)布的任何東西都更逼真的圖像。
確實很逼真了,現(xiàn)在的真實人物圖基本上都是照片質(zhì)量的,完全沒有之前AI生成的那種僵硬感。
我們已經(jīng)加強了審核系統(tǒng),并將以更嚴(yán)格和嚴(yán)謹(jǐn)?shù)姆绞綀?zhí)行我們的社區(qū)標(biāo)準(zhǔn)。不要做混蛋,或制造引起爭議的圖片。
V6是我們在AI超級集群上從頭開始訓(xùn)練的第三個模型。它已經(jīng)開發(fā)了9個月。
V6不是最后一步,但我們希望大家都能感受到一些深刻的進展,這些進展與我們集體想象力的力量密切相關(guān)。
這是一個探索V6的入門模板,適用于多個主題。
如果你愿意,你可以將V6視為有四個可選部分。這完全取決于你的提示內(nèi)容以及對你作為藝術(shù)家來說什么是有意義的。
[典型場景] + [回調(diào)細(xì)節(jié)] + [設(shè)置細(xì)節(jié)] + [氛圍或美學(xué)]
1??[典型場景]
在合適的情況下,使用第一句話中的原型概念來概括地設(shè)置場景。這里有一個對具體性的恰當(dāng)平衡點。句子不必很長。你稍后會添加細(xì)節(jié)。
? 好的:三個朋友坐在公園的長椅上。
? 更好的:三個不同的朋友坐在公園的長椅上。 (沒有用“不同的”,Midjourney會決定他們的一般外觀,他們可能看起來相似。)
? 最佳,具體化:三個不同的最好的朋友緊挨著坐在公園的長椅上。 (沒有“最好的朋友”和“緊挨著坐”,我們得到的是更通用的氛圍。)
2??[回調(diào)細(xì)節(jié)]
在適合的提示中,使用對場景設(shè)置中使用的同一詞語的回調(diào)來添加細(xì)節(jié)。這意味著字面上重復(fù)這些詞語,以在你在第一句中設(shè)置的內(nèi)容和你現(xiàn)在正在寫的細(xì)節(jié)之間創(chuàng)建聯(lián)系。
? 不太好,沒有使用回調(diào):詹妮弗在中間,一個穿著牛仔褲和背心的金發(fā)白人女性。
? 不太好,沒有使用簡單句子:中間,穿著牛仔褲和綠色背心的是那位白人朋友。
? 更好,它使用了簡單句子和對“朋友”的回調(diào):中間的朋友是一個快樂的金發(fā)白人女性,穿著牛仔褲和綠色背心。
3??[設(shè)置細(xì)節(jié)]
在合適的情況下,添加有關(guān)設(shè)置或背景的細(xì)節(jié),放在提示的末尾。
? 不太好,對于V6來說有點模糊,可能有效:有活橡樹和鴿子。
? 更好,更清晰一些:人行道上有一些鴿子。背景中有一些活橡樹。
? 最佳,具體化:長椅前的人行道上有兩只鴿子。在背景中,空蕩蕩的公園里有一些古老的活橡樹。
如果你開始看到事物變得不連貫,準(zhǔn)備好將具體內(nèi)容回退或從提示中刪除。. .
4??[氛圍或美學(xué)]
在提示的最后添加有關(guān)圖像氛圍/美學(xué)的細(xì)節(jié)。它可以隨你喜歡的長度。請注意,沒有太多視覺語義內(nèi)容的詞在畫布上不會有任何作用。
攝影:
? 不太好:照片。
? 更好:彩色攝影。
? 最佳,具體指出靈感來源,如攝影師的名字或出版物:受《南方生活》雜志啟發(fā)的彩色攝影。
非攝影:
? 不太好:藝術(shù)。
? 更好:數(shù)字藝術(shù)。
? 最佳,使用形容詞并具體指出靈感來源,如藝術(shù)家或藝術(shù)類型/流派/體裁/媒介:受Krenz Cushart和Tom Bagshaw啟發(fā)的時尚數(shù)字藝術(shù)。
? 示例結(jié)果
如果對你來說探索它是有意義的,這里有一個使用模板的示例結(jié)果。由于V6對自然語言非常聰明,沒有強制性的指導(dǎo)原則,但在編寫復(fù)雜的提示時,有些人可能會喜歡將模板作為他們自己的發(fā)現(xiàn)和探索的起點。
比如下面這張生成的示例圖:
三個不同的最好的朋友緊挨著坐在公園的長椅上。中間的朋友是一個快樂的金發(fā)白人女性,穿著牛仔褲和綠色背心。右邊的朋友是一個嚴(yán)肅的非洲裔美國男性,穿著燕尾服。左邊的朋友是一個笑著的印度女性,穿著橙色的印度傳統(tǒng)服飾。由Krenz Cushart和Tom Bagshaw創(chuàng)作的時尚數(shù)字藝術(shù)。--v 6.0
V6運行在語義和自然語言上,每個 /imagine 與之前版本相比都有巨大的內(nèi)存容量,這意味著提示可以長且詳細(xì)。你可以控制構(gòu)圖,設(shè)置多個主題,并添加文本。
要激活V6,請輸入 /settings 并從版本下拉菜單中選擇它。
1?? 現(xiàn)在提示長度可達(dá)350+詞
畫布上的連貫性與提示使用可用內(nèi)存的方式有關(guān)。在V5中,只有前15-20個詞對畫布有強烈的影響,在我們用盡內(nèi)存并看到詞語影響下降之前。
在V6中,我們獲得了大量額外的內(nèi)存,所以可以說我們有350到500個詞,甚至更多。提示如何使用可用內(nèi)存似乎與詞語的語義內(nèi)容有關(guān)。
例如,這個15個詞的短語 - "the the the the the an an an an an this this this this this" - 沒有特定的語義內(nèi)容,看起來使用了我們可用內(nèi)存的很小一部分。但同樣的15個詞用來生動描述三個牛仔意味著,鑒于我們剩余的內(nèi)存,渲染第四個牛仔將是一個挑戰(zhàn)。
所以,V6并沒有一個固定的提示長度,而是有一個“語義上限”,這將對每個提示有不同的影響。讓我們探索一下!
2?? 你可以指定顏色和其他細(xì)節(jié)
在V5中,我們傾向于使用原型。我們讓Midjourney選擇它想要呈現(xiàn)圖像的方式,因為它自己的決定會更連貫,而我們試圖控制的嘗試會被忽略。
在V6中,我們?nèi)匀唤oMidjourney一個原型,但現(xiàn)在我們努力用自然語言表達(dá)的細(xì)節(jié)來控制Midjourney的渲染。
3?? 你可以使用語言來控制構(gòu)圖,在畫布上放置想要的東西
在V5中,介詞短語通常不被理解。在V6中,它們幾乎總是被理解。這令人震驚?,F(xiàn)在我們有了可靠的介詞短語,很容易將事物相互定位以及與攝像機的關(guān)系。
我們?nèi)绾慰刂茦?gòu)圖?
這里有一個起點:更可靠的方法是用短語描述一個通用圖像,然后從畫布的焦點開始填充細(xì)節(jié)。在確定了焦點之后,圍繞它填充細(xì)節(jié)。
比如說:
廚房桌子上有三個裝滿水果的籃子。中間的籃子里裝著綠蘋果。左邊的籃子裝滿了草莓。右邊的籃子里滿是藍(lán)莓。背景是一面空的藍(lán)綠色墻,上面有一個圓形窗戶。
4?? 你可以在你的圖像中添加文字
這真是太酷了。要在你的圖像中添加文字,把你想要打印的詞放在“引號”里,并確保你的提示包含一個語義上合理的地方來打印這些文字。
比如這一句提示詞:
用馬克筆在便利貼上寫的“Hello World!”
5?? 你可以提示多于一個主題
在V5中,一個主題可以被漂亮地渲染,但兩個主題會混合……而三個主題對我們大多數(shù)人來說是遙不可及的。
但在V6中,一個和兩個主題都可以被漂亮地渲染,三個主題開始混合但可以控制。
6?? 如果細(xì)節(jié)泄露到整個圖像上,我該怎么辦?
在V6中,泄露不會那么容易發(fā)生,但它確實可能發(fā)生。
在提示的前面建立的圖像比在提示末尾建立的圖像更容易融入到其余的提示中。例如,提示開頭部分建立的傳統(tǒng)服裝印度女性的形象可能會將印度珠寶和其他細(xì)節(jié)添加到其他主題上。
如果你觀察到這種混合效果,開始一個新的 /imagine,并將容易混合的圖像移動到提示的末尾。
處理混合的第二種方法是替換細(xì)節(jié)。如果你看到一個不希望出現(xiàn)的細(xì)節(jié),指定應(yīng)該在那里的東西。你的細(xì)節(jié)將壓倒因混合而出現(xiàn)的細(xì)節(jié)。
但嘿,在對混合感到沮喪之前,仔細(xì)看看你的網(wǎng)格。記住,如果網(wǎng)格中有1或2張可用的圖片,意味著你有一個好的提示!
7?? 如果我的圖像看起來模糊或不協(xié)調(diào),我該怎么辦?
在V6 Alpha中,如果你的提示相當(dāng)復(fù)雜,你可能會注意到細(xì)節(jié)模糊或不連貫。
以下是探索解決連貫性問題或缺乏清晰度問題的三種策略。在對連貫性感到絕望之前,檢查你的網(wǎng)格是否有成功的結(jié)果。記住,如果網(wǎng)格中有1或2張可用的圖片,意味著你有一個好的提示!
8?? 如果畫布上沒有出現(xiàn)某些東西,我該怎么辦?
在V6中,細(xì)節(jié)丟失的可能性較小,但當(dāng)提示相當(dāng)復(fù)雜時,這種情況仍可能發(fā)生。有三種策略可以探索解決缺失細(xì)節(jié)的問題。在對Midjourney的不服從感到絕望之前,檢查你的網(wǎng)格是否有成功的結(jié)果。記住,如果網(wǎng)格中有1或2張可用的圖片,意味著你有一個好的提示!
你不能告訴Midjourney“把它變成油畫”或使用remix并告訴Midjourney“在她的頭發(fā)上放更多的花”。但是一個單獨的直接 /imagine 可以像指令一樣編寫,它可能會運行得很好。
點擊這些將其展開到全尺寸。只要你的長寬比協(xié)調(diào)一致,你就可以將簡單場景組織成面板。
記住,對于像這樣的提示,網(wǎng)格中即使只有一個正確的項也是驚人的。
比如:
一個男孩在停車場里拿著車鑰匙,但附近沒有車。--v 6
剪貼畫中的一個燈,放在空白背景上。圖像周圍有一個薄金色的邊框或框架。
近期文章
更多