超詳細文本提示詞技巧丨 RunWay Gen-3發(fā)布保姆級提示詞教程
7月9日,著名生成式AI平臺Runway在官網(wǎng)公布了,最新發(fā)布的文生視頻模型Gen-3 Alpha的文本提示教程。
在你使用Gen-3、可靈、luma等產(chǎn)品生成視頻時,經(jīng)常會發(fā)現(xiàn)生成的結(jié)果好像和預期差的有點遠。通常情況下,如果不是模型的訓練數(shù)據(jù)沒有覆蓋到,那便是提示詞不夠詳細、精準。
例如,你直接輸入文本提示“一個海邊日落的場景”。這樣的提示詞視頻模型無法理解你的準確意圖、場景環(huán)境、視覺描述等,生成的視頻會非常寬泛視覺效果會很差。
正確的提示詞應該是,“夕陽下的海灘,金色的陽光灑在波光粼粼的海面上,海鷗在天空中自由飛翔,遠處有幾艘正在航行的漁船,高清、寫實風格、慢動作鏡頭。”如果是自帶音頻的視頻模型,還要加上鳥叫、汽笛聲、風吹等音樂關(guān)鍵詞,讓其與視頻畫面更好地融合在一起。
就算你無法使用Gen-3也沒關(guān)系,這些文本提示技巧、鏡頭、運動效果基本上是相通的,適用于那些免費產(chǎn)品。
從技術(shù)層面來說,你輸入的文本提示會被轉(zhuǎn)換成“向量”,這些向量包含了描述的場景、人物、動作等關(guān)鍵信息,在模型整個生成過程中起著持續(xù)引導的作用。模型會不斷地參考這個語義向量,確保生成的視頻內(nèi)容與文本描述保持一致。
例如,輸入的文本提示是“一只貓在雪地里玩耍”,模型會將文本中的貓、雪地和玩耍關(guān)鍵詞轉(zhuǎn)化為向量,再由神經(jīng)網(wǎng)絡(luò)根據(jù)這些向量生成最終的場景。在生成過程中,文本提示就像是給模型指明方向的路標,按照正確的路徑、目標生成視頻。
此外, 文生視頻模型還需要考慮時間序列和連貫性,以確保生成的視頻不僅在視覺上與描述相符,在動作邏輯上也是一致的。
這就需要模型不僅理解每個單獨視頻幀的含義,還要能預測和生成后續(xù)幀的內(nèi)容,以形成連貫的故事線或動態(tài)畫面。所以,相比文本、圖片,視頻模型在開發(fā)和算力消耗方面也就更難。
簡單來說,文本提示詞相當于大模型的“指導員”,引導大模型創(chuàng)造與描述相匹配的內(nèi)容。無論是視頻、音頻、文本還是圖片,它們的提示技巧在原理上基本是相同的,也就是說你掌握了一種在學習其他的會很快上手。
為大家簡單介紹完文本提示的原理之后,下面就說一下Gen-3公布的官方提示詞教程,以及分享一下「AIGC開放社區(qū)」在使用提示詞的一些心得。
Runway表示,將場景、主題和鏡頭運動的細節(jié)分成不同的模塊,這樣的提示結(jié)構(gòu)清晰,效果最佳。
Gen-3的標準提示結(jié)構(gòu)——鏡頭移動:建立場景(文本提示)+額外細節(jié)。
近景特寫鏡頭:一個高清的指頭上,站著一只可愛的迷你小狗,很好奇地看著鏡頭。
上面只是Gen-3的標準提示結(jié)構(gòu),如果你對鏡頭場景要求不高不加也沒問題。例如,飛越一座愛爾蘭的城堡,并發(fā)現(xiàn)了一座摩天大樓的未來賽博朋克城市。
彩色織物和服裝旋風般的超現(xiàn)實拼貼畫,在半空中飄揚和旋轉(zhuǎn)。場景動感時尚,紡織圖案充滿活力。運動感和風格創(chuàng)造了視覺上引人注目的復雜場景。背景漆黑一片。
相比結(jié)構(gòu),精準的效果、細節(jié)提示詞在模型生成的過程中起到的作用更大。Gen-3的模型中主要由相機風格、燈光效果、移動效果、運動類型、風格與審美以及文本樣式6大類組成。
提示,在移動效果中有很多快速鏡頭Gif,可能會造成眩暈觀看時要注意。
下面這些提示詞展示,可以在文本生成的過程中直接使用,幫助你精準掌控視頻呈現(xiàn)的鏡頭風格。
方法就是——相機風格關(guān)鍵詞+文本提示詞+額外細節(jié)。例如,低角度,一個正在行走在街道上的泥土人,周圍是朦朧的街道。
低角度
高角度
高架
第一視角
手持
廣角
特寫
微距離
越肩效果
現(xiàn)實記錄
漫射照明
輪廓
鏡頭光暈
側(cè)光式
背光
凝膠燈光
動態(tài)運動
慢動作
超高速
時光倒流
生長
出現(xiàn)
爆炸
起伏
扭曲
變換
粉碎
渦流
展開
電影效果
彩虹色
故障效果
家庭錄像 VHS
Bold
涂鴉
Neon
校隊
刺繡
「AIGC開放社區(qū)」使用過很多文生視頻、音頻、文本以及圖片的產(chǎn)品,所以也有一些心得,借著這個機會就和大家分享一下。
技術(shù)層面開頭已經(jīng)簡單介紹過了,這里就主要說一下,從你下筆的那一刻開始應該如何構(gòu)建完成、精準的“文本提示體系”。
1)明確目標,你需要明確想要生成什么樣的視頻、圖片或音頻,包括主題、風格、情感基調(diào)等。例如,你想要制作一個關(guān)于環(huán)保的公益廣告,風格是啟發(fā)性和教育性。所以,輸入的提示詞最好都涉及到這方面。
2)具體化描述,在我們確定目標后就要盡可能具體地描述你想生成場景。例如,我們想生成一張圖片,不要只說一個華麗的葡萄酒杯。
可以具體化成“這是一幅令人驚嘆,充滿想象力的3D插畫。畫中的酒杯裝滿了濃郁的紅酒。酒杯中的葡萄酒呈現(xiàn)出山巒起伏、葡萄園以及葡萄、蘋果和草莓果園的景色。葡萄酒仿佛從杯中流出,將自然與液體完美地融合在一起。畫面整體氛圍寧靜,光線柔和,葡萄酒與周圍景觀相得益彰。”
3)多使用視覺元素,包括顏色、光線、天氣等。例如,一個心形掛鎖和一把鑰匙。
可以添加不同元素來豐富它“這是一個浪漫迷人的3D花園場景,其中有一把精致的藍色暗色掛鎖,掛鎖上裝飾著發(fā)著微光的的藤蔓和花朵。發(fā)光的掛鎖周圍環(huán)繞著俏皮的蝴蝶,為整個氛圍增添了神奇的絢麗色彩。
掛鎖旁邊是一把雕刻精美的金鑰匙,上面有復雜的心形圖案。4K、3D效果、插畫、時尚。”
4),注重動作和動態(tài)效果,動態(tài)的描述可以讓生成的產(chǎn)品更具活力和想象力。在描述的過程中可以適當?shù)丶尤胍恍﹦討B(tài)效果,例如,一個小女孩在花園里追逐蝴蝶,蝴蝶在花叢間飛舞,陽光透過樹林普照在他們身上。
如果你是生成視頻的話,可以用時間或者天氣的方式來添加動態(tài),例如,隨著時間的推移,天空從蔚藍逐漸變?yōu)槌壬?,最后染上紫色的晚霞?/p>
5)多重角度和視角,在生成的過程中可以使用不同的視角來豐富作品的多元化,這類技巧在視頻領(lǐng)域應用較多。例如,從鳥瞰視角展示城市全景,隨后切換到地面視角,觀看行人的活動。
可以使用一些近景、遠景、聚焦、穿越等特殊鏡頭,這一點Gen-3的官方教程也說了。
6)反復生成,你經(jīng)常會看到很多文本、圖片、視頻的產(chǎn)品一次性會生成2個以上內(nèi)容,這是因為目前人類還無法精準控制神經(jīng)網(wǎng)絡(luò)生成的內(nèi)容。
即便你使用了最精準的提示詞,它隨機生成的概率還是非常的大,這主要是因為架構(gòu)和訓練數(shù)據(jù)等原因。所以,你在生成的過程中可以反復多次嘗試,直到達到自己的目標即可。
上面只是「AIGC開放社區(qū)」日常使用的心得,我們在學習完方法和技術(shù)概念之后,就是多使用Gen-3、ChatGPT、Stable Difusion、Suno、Udio、DALL·E 3、Midjourney這類生成式AI產(chǎn)品,強化學習總結(jié)經(jīng)驗以生成更好的作品。
同時歡迎大家一起交流技術(shù)心得,共同進步,做AIGC時代的探路者、指路明燈。
近期文章
更多