真實(shí)降維打擊!Sora橫向?qū)Ρ萊unway、Pika、AnimateDiff、LeonardoAI四款主流AI視頻生成模型
今年最火爆的科技圈爆品,要屬躥紅的Sora,把AI視頻時(shí)間延長(zhǎng)到了「史詩(shī)級(jí)」的60秒,并且還支持生成多達(dá)5個(gè)不同的機(jī)位,還能保持良好的邏輯一致性。
但是坦率地講,Sora距離一部完整的帶劇情電影,還是差得遠(yuǎn)?;蛟S可以期待,年內(nèi)我們就能看到Sora創(chuàng)作的一部5、6分鐘的微電影。
不妨把眼光下放到與競(jìng)爭(zhēng)對(duì)手的PK上,更能看出Sora對(duì)行業(yè)的影響力。同在AI視頻領(lǐng)域橫向比較的話,目前確定的是,Sora無人可匹敵。
2月29日,OpenAI的ChatGPT研究員Jason Wei在網(wǎng)上透露,目前Sora的形態(tài)與能力大概可與GPT-2時(shí)期相當(dāng)。(備注:GPT-2在2018年推出)
日前,國(guó)外一名創(chuàng)作者,就利用Sora官網(wǎng)上提供的提示詞,比較了目前同賽道的幾款競(jìng)品的生成效果。包括:Runway Gen-2、基于Stable Diffusion的AnimateDiff、Pika,以及LeonardoAI。
首先進(jìn)行“文生視頻”考核,比較的是Sora模型的代表作——「夜幕下日本街頭行走的女子」。
一句話,Sora鶴立雞群。而其他競(jìng)品當(dāng)中,LeonardoAI的整體質(zhì)感尚可。
接下來考核“圖生視頻”,我們的小哥嘗試把題目難度往下放,用一張Midjourney生成的優(yōu)質(zhì)成片來創(chuàng)作AI視頻。
這是Sora的四款競(jìng)爭(zhēng)AI視頻生成工具所衍生的視頻作品。
這次是基于Stable Diffusion的AnimateDiff模型質(zhì)感更好一些。
AnimateDiff的工作原理是在Stable Diffusion模型中插入一個(gè)動(dòng)作建模模塊。該模塊在大量的視頻參數(shù)上學(xué)習(xí)生成合理的物體運(yùn)動(dòng)。
接下來對(duì)比的是「航拍海岸礁石」,Sora對(duì)比Runway是這樣的。
對(duì)比AnimateDiff是這樣的。
Pika是這樣的,海浪出現(xiàn)了反方向的情況。
LeonardoAI的整體質(zhì)感尚可,但海浪有明顯的邏輯錯(cuò)誤。?
接下來是AI生成「雪地玩耍的小狗」視頻的效果對(duì)比。
綜合來看,客觀地說,這則提示詞下,幾家工具的創(chuàng)作都還可以,基本還原提示詞的場(chǎng)景,LeonardoAI的質(zhì)感最接近Sora。
當(dāng)然,Sora的出片表現(xiàn)張力依然鶴立雞群。
以下是「山地公路吉普行車」的效果對(duì)比。
從這組對(duì)比,大部分的AI視頻工具崩壞就比較嚴(yán)重了,甚至無法理解吉普車行駛的前后邏輯。
而LeonardoAI是本次對(duì)比測(cè)評(píng)當(dāng)中,是最令我印象深刻的一款工具。
Sora比起其他的AI視頻工具,拉開的性能差距可不止一條街。
近日,有開發(fā)者將一張Midjourney創(chuàng)作的后廚圖像,利用Sora生成了一段廚房里邊熱火朝天的忙碌場(chǎng)景短片,長(zhǎng)達(dá)22秒。不仔細(xì)看的話,整體可圈可點(diǎn)。
前陣子,國(guó)外社區(qū)有消息指出,Sora生成一分鐘的視頻,需要最強(qiáng)大的顯卡運(yùn)算一個(gè)多小時(shí)。
不過,只要你曾經(jīng)自己剪輯過視頻、問問身邊做3D圖像渲染的朋友,就知道這個(gè)時(shí)間成本其實(shí)并不算什么。
難以置信,等到Sora正式上線以后,電影工業(yè)會(huì)被顛覆成什么樣子。