亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

首頁  >  資訊  >  文章
2024-03-22 15:08

Sora不開源,微軟給你開源!全球最接近Sora視頻模型Mora誕生,12秒生成效果逼真炸裂

微軟版Sora誕生了!

Sora雖爆火但閉源,給學(xué)術(shù)界帶來了不小的挑戰(zhàn)。學(xué)者們只能嘗試使用逆向工程來對Sora復(fù)現(xiàn)或擴(kuò)展。

盡管提出了Diffusion Transformer和空間patch策略,但想要達(dá)到Sora的性能還是很難,何況還缺乏算力和數(shù)據(jù)集。

不過,研究者發(fā)起的新一波復(fù)現(xiàn)Sora的沖鋒,這不就來了么!

就在剛剛,理海大學(xué)聯(lián)手微軟團(tuán)隊(duì)一種新型的多AI智能體框架———Mora。

圖片

論文地址:https://arxiv.org/abs/2403.13248

沒錯,理海大學(xué)和微軟的思路,是靠AI智能體。

Mora更像是Sora的通才視頻生成。通過整合多個SOTA的視覺AI智能體,來復(fù)現(xiàn)Sora展示的通用視頻生成能力。

圖片

具體來說,Mora能夠利用多個視覺智能體,在多種任務(wù)中成功模擬Sora的視頻生成能力,包括:

- 文本到視頻生成

- 基于文本條件的圖像到視頻生成

- 擴(kuò)展已生成視頻

- 視頻到視頻編輯

- 拼接視頻

- 模擬數(shù)字世界

圖片

實(shí)驗(yàn)結(jié)果表明,Mora在這些任務(wù)中取得了接近Sora的表現(xiàn)。

值得一提的是,它在文本到視頻生成任務(wù)中的表現(xiàn)超越了現(xiàn)有的開源模型,在所有模型中排名第二,僅次于Sora。

不過,在整體性能上,與Sora還有著明顯差距。

圖片

Mora可根據(jù)文字提示生成高分辨率、時(shí)間連貫的視頻,分辨率為1024 × 576.時(shí)長12秒,共75幀。

復(fù)刻Sora所有能力

Mora基本上還原了Sora的所有能力,怎么體現(xiàn)?

文本到視頻生成

圖片

提示:A vibrant coral reef teeming with life under the crystal-clear blue ocean, with colorful fish swimming among the coral, rays of sunlight filtering through the water, and a gentle current moving the sea plants.

圖片

提示:A majestic mountain range covered in snow, with the peaks touching the clouds and a crystal-clear lake at its base, reflecting the mountains and the sky, creating a breathtaking natural mirror.

圖片

提示:In the middle of a vast desert, a golden desert city appears on the horizon, its architecture a blend of ancient Egyptian and futuristic elements.The city is surrounded by a radiant energy barrier, while in the air, seve

基于文本條件圖像到視頻的生成

輸入這張經(jīng)典的「SORA字樣的逼真云朵圖像」。

圖片

提示:An image of a realistic cloud that spells “SORA”.

Sora模型生成的效果是這樣的。

圖片

Mora生成出來的視頻,絲毫不差。

圖片

還有輸入一張小怪獸圖片。

圖片

提示:Monster Illustration in flat design style of a diverse family of monsters. The group includes a furry brown monster, a sleek black monster with antennas, a spotted green monster, and a tiny polka-dotted monster, all interacting in a playful environment.

Sora將其轉(zhuǎn)換為視頻的效果,讓這些小怪獸們活靈活現(xiàn)動起來。

圖片

Mora雖也讓小怪獸們動起來,但是明顯可以看出有些不穩(wěn)定,圖中卡通人物樣子沒有保持一致。

圖片

擴(kuò)展已生成的視頻

先給到一個視頻

圖片

Sora能夠生成穩(wěn)定的AI視頻,而且風(fēng)格一致。

圖片

但Mora生成的視頻中,前面騎自行車的人最后自行車沒了,人也變形了,效果不是很好。

圖片

視頻到視頻編輯

給到一個提示「將場景切換到20世紀(jì)20年代的老式汽車」,并輸入一個視頻。

圖片

Sora經(jīng)過風(fēng)格替換后,整體看起來非常絲滑。

圖片

Mora這段老式汽車的生成,破舊的有點(diǎn)不真實(shí)。

圖片

拼接視頻

輸入兩個視頻,然后將其完成拼接。

圖片

圖片

Mora拼接后的視頻

圖片

模擬數(shù)字世界

圖片

整體接近,但不如Sora

一大波演示之后,大家對Mora的視頻生成能力有了一定了解。

與OpenAI Sora相比,Mora在六個任務(wù)中的表現(xiàn)非常接近,不過也存在著很大的不足。

文本到視頻生成

具體來說,Mora的視頻質(zhì)量得分0.792.僅次于第一名Sora的0.797.并且超過了當(dāng)前最好的開源模型(如VideoCrafter1)。

在對象一致性方面,Mora得分0.95.與Sora持平,在整個視頻中都表現(xiàn)出了卓越的一致性。

圖片

在下圖中,Mora文本到視頻生成的視覺保真度非常引人注目,體現(xiàn)了高分辨率圖像以及對細(xì)節(jié)的敏銳關(guān)注,和對場景的生動描繪。

圖片

在基于文本條件的圖像生成任務(wù)中,模型在將圖片和文本指令,轉(zhuǎn)化成連貫視頻能力上,Sora肯定是最完美的。

不過Mora的結(jié)果,與Sora相差很小。

圖片

圖片

擴(kuò)展生成的視頻

再來看擴(kuò)展生成視頻測試中,在連續(xù)性和質(zhì)量上的結(jié)果,也是Mora與Sora比較接近。

圖片

盡管Sora處于領(lǐng)先地位,但Mora的能力,特別是在遵循時(shí)間風(fēng)格和擴(kuò)展現(xiàn)有視頻而不顯著損失質(zhì)量方面,證明了其在視頻擴(kuò)展領(lǐng)域的有效性。

圖片

視頻到視頻編輯+視頻拼接

針對視頻到視頻編輯,Mora在保持視覺和風(fēng)格連貫性的能力方面接近Sora。還有拼接視頻任務(wù)中,Mora也可以實(shí)現(xiàn)將不同視頻進(jìn)行無縫拼接。

圖片

在這個示例中,Sora和Mora都被指示將設(shè)置修改為1920年代風(fēng)格,同時(shí)保持汽車的紅色。

圖片

圖片

模擬數(shù)字世界

還有最后的模擬數(shù)字世界的任務(wù),Mora也能像Sora一樣具備創(chuàng)建虛擬環(huán)境世界的能力。不過質(zhì)量方面,比Sora差一些。

圖片

圖片

Mora:基于智能體的視頻生成

Mora這個多智能體框架,是如何解決當(dāng)前視頻生成模型的局限的?

它的關(guān)鍵,就是通過將視頻生成過程分解為多個子任務(wù),并為每個任務(wù)指派專門的智能體,來靈活地完成一系列視頻生成任務(wù),滿足用戶的多樣化需求。

在推理過程中,Mora會生成一個中間圖像或視頻,從而保持文本到圖像模型中的視覺多樣性、風(fēng)格和質(zhì)量,并增強(qiáng)編輯功能。

圖片

通過高效地協(xié)調(diào)處理從文本到圖像、從圖像到圖像、從圖像到視頻以及從視頻到視頻的轉(zhuǎn)換任務(wù)的智能體,Mora能夠處理一系列復(fù)雜的視頻生成任務(wù),提供出色的編輯靈活性和視覺真實(shí)度。

總結(jié)來說,團(tuán)隊(duì)的主要貢獻(xiàn)如下:

- 創(chuàng)新性的多智能體框架,以及一個直觀的界面,方便用戶配置不同的組件和安排任務(wù)流程。

- 作者發(fā)現(xiàn),通過多個智能體的協(xié)同工作(包括將文本轉(zhuǎn)換成圖像、圖像轉(zhuǎn)換成視頻等),可以顯著提升視頻的生成質(zhì)量。這一過程從文本開始,先轉(zhuǎn)化為圖像,然后將圖像和文本一起轉(zhuǎn)換成視頻,最后對視頻進(jìn)行優(yōu)化和編輯。

- Mora在6個與視頻相關(guān)的任務(wù)中都展現(xiàn)出了卓越的性能,超過了現(xiàn)有的開源模型。這不僅證明了Mora的高效性,也展示了其作為一個多用途框架的潛力。

智能體的定義

在視頻生成的不同任務(wù)中,通常需要多個具有不同專長的智能體協(xié)同工作,每個智能體都提供其專業(yè)領(lǐng)域的輸出。

為此,作者定義了5種基本類型的智能體:提示選擇與生成、文本到圖像生成、圖像到圖像生成、圖像到視頻生成、以及視頻到視頻生成。

圖片

- 提示選擇與生成智能體:

在開始生成初始圖像之前,文本提示會經(jīng)過一系列嚴(yán)格的處理和優(yōu)化步驟。這個智能體可以利用大型語言模型(如GPT-4)來精確分析文本,提取關(guān)鍵信息和動作,大大提高生成圖像的相關(guān)性和質(zhì)量。

- 文本到圖像生成智能體:

這個智能體負(fù)責(zé)將豐富的文本描述轉(zhuǎn)化為高質(zhì)量的圖像。它的核心功能是深入理解和可視化復(fù)雜的文本輸入,從而能夠根據(jù)提供的文本描述創(chuàng)建詳細(xì)、準(zhǔn)確的視覺圖像。

- 圖像到圖像生成智能體:

根據(jù)特定的文本指令修改已有的源圖像。它能夠精確解讀文本提示,并據(jù)此調(diào)整源圖像(從細(xì)微修改到徹底改造)。通過使用預(yù)訓(xùn)練模型,它能夠?qū)⑽谋久枋雠c視覺表現(xiàn)有效拼接,實(shí)現(xiàn)新元素的整合、視覺風(fēng)格的調(diào)整或圖像構(gòu)成的改變。

- 圖像到視頻生成智能體:

在初始圖像生成之后,這個智能體負(fù)責(zé)將靜態(tài)圖像轉(zhuǎn)化為動態(tài)視頻。它通過分析初始圖像的內(nèi)容和風(fēng)格,生成后續(xù)的幀,確保視頻的連貫性和視覺一致性,展現(xiàn)了模型理解、復(fù)制初始圖像,以及預(yù)見并實(shí)現(xiàn)場景邏輯發(fā)展的能力。

- 視頻拼接智能體:

這個智能體通過選擇性使用兩段視頻的關(guān)鍵幀,確保它們之間平滑且視覺上一致的過渡。它能夠準(zhǔn)確識別兩個視頻中的共同元素和風(fēng)格,生成既連貫又具有視覺吸引力的視頻。

智能體的實(shí)現(xiàn)

文本到圖像的生成

研究者利用預(yù)訓(xùn)練的大型文本到圖像模型,來生成高質(zhì)量且具有代表性的第一張圖像。

第一個實(shí)現(xiàn),用的是Stable Diffusion XL。

圖片

它引入了文本到圖像合成的潛在擴(kuò)散模型的架構(gòu)和方法的重大演變,在該領(lǐng)域樹立了新的基準(zhǔn)。

其架構(gòu)的核心,就是一個擴(kuò)大的UNet主干網(wǎng)絡(luò),它比Stable Diffusion 2之前版本中使用的主干大三倍。

圖片

這種擴(kuò)展主要是通過增加注意力塊的數(shù)量和更廣泛的交叉注意力上下文來實(shí)現(xiàn)的,并通過集成雙文本編碼器系統(tǒng)來促進(jìn)。

第一個編碼器基于OpenCLIP ViT-bigG,而第二個編碼器則利用CLIP ViT-L,通過拼接這些編碼器的輸出,來允許對文本輸入進(jìn)行更豐富、更細(xì)致的解釋。

圖片

這種架構(gòu)創(chuàng)新輔以多種新穎的調(diào)節(jié)方案的引入,這些方案不需要外部監(jiān)督,從而增強(qiáng)了模型的靈活性和生成跨多個長寬比的圖像的能力。

此外,SDXL還具有一個細(xì)化模型,該模型采用事后圖像到圖像轉(zhuǎn)換來提高生成圖像的視覺質(zhì)量。

此細(xì)化過程利用噪聲去噪技術(shù),進(jìn)一步完善輸出圖像,而不會影響生成過程的效率或速度。

圖像到圖像的生成

在這個過程中,研究者用初始框架,實(shí)現(xiàn)了使用InstructPix2Pix作為圖像到圖像生成智能體。

圖片

InstructPix2Pix經(jīng)過精心設(shè)計(jì),可以根據(jù)自然語言指令進(jìn)行有效的圖像編輯。

該系統(tǒng)的核心集成了兩個預(yù)訓(xùn)練模型的廣泛知識:GPT-3用于根據(jù)文本描述生成編輯指令和編輯后的標(biāo)題;Stable Diffusion用于將這些基于文本的輸入轉(zhuǎn)換為視覺輸出。

這種巧妙的方法首先在精選的圖像標(biāo)題數(shù)據(jù)集和相應(yīng)的編輯指令上微調(diào)GPT-3.從而產(chǎn)生一個可以創(chuàng)造性地建議合理編輯并生成修改后的標(biāo)題的模型。

在此之后,通過Prompt-to-Prompt技術(shù)增強(qiáng)的Stable Diffusion模型,會根據(jù)GPT-3生成的字幕生成圖像對(編輯前和后)。

圖片

然后在生成的數(shù)據(jù)集上訓(xùn)練InstructPix2Pix核心的條件擴(kuò)散模型。

InstructPix2Pix直接利用文本指令和輸入圖像,在單次前向傳遞中執(zhí)行編輯。

通過對圖像和指令條件采用無分類器指導(dǎo),進(jìn)一步提高了這種效率,使模型能夠平衡原始像的保真度和遵守編輯指令。

圖像到視頻的生成

在文本到視頻生成智能體中,視頻生成代理在確保視頻質(zhì)量和一致性方面發(fā)揮著重要作用。

研究者的第一個實(shí)現(xiàn),是利用目前的SOTA視頻生成模型Stable Video Diffusion來生成視頻。

圖片

SVD架構(gòu)利用最初為圖像合成而開發(fā)的LDMs Stable Diffusion v2.1的優(yōu)勢,將其功能擴(kuò)展到處理視頻內(nèi)容固有的時(shí)間復(fù)雜性,從而引入了一種生成高分辨率視頻的先進(jìn)方法。

SVD模型的核心遵循三階段訓(xùn)練體系,從文本到圖像相關(guān)開始,模型從一組不同的圖像中學(xué)習(xí)穩(wěn)健的視覺表示。這個基礎(chǔ),使模型能夠理解并生成復(fù)雜的視覺圖案和紋理。

在第二階段,即視頻預(yù)訓(xùn)練中,模型接觸大量視頻數(shù)據(jù),使其能夠通過將時(shí)間卷積和注意力層與其空間對應(yīng)層結(jié)合起來來學(xué)習(xí)時(shí)間動態(tài)和運(yùn)動模式。

訓(xùn)練是在系統(tǒng)管理的數(shù)據(jù)集上進(jìn)行的,確保模型從高質(zhì)量且相關(guān)的視頻內(nèi)容中學(xué)習(xí)。

最后階段是高質(zhì)量視頻微調(diào),重點(diǎn)是改進(jìn)模型使用更小但更高質(zhì)量的數(shù)據(jù)集,生成分辨率和保真度更高的視頻的能力。

這種分層訓(xùn)練策略輔以新穎的數(shù)據(jù)管理流程,使SVD能夠出色地生成最先進(jìn)的文本到視頻和圖像到視頻合成,并且隨著時(shí)間的推移,具有非凡的細(xì)節(jié)、真實(shí)性和連貫性。

拼接視頻

對于這個任務(wù),研究者利用SEINE來拼接視頻。

SEINE是基于預(yù)訓(xùn)練的T2V模型LaVie智能體構(gòu)建的。

SEINE以隨機(jī)掩碼視頻擴(kuò)散模型為中心,后者根據(jù)文本描述生成過渡。

通過將不同場景的像與基于文本的控制相集成,SEINE可以生成保持連貫性和視覺質(zhì)量的過渡視頻。

此外,該模型還可以擴(kuò)展到圖像到視頻動畫和白回歸視頻預(yù)測等任務(wù)。

討論

優(yōu)勢

- 創(chuàng)新框架與靈活性:

Mora引進(jìn)了一種革命性的多智能體視頻生成框架,大大拓展了此領(lǐng)域的可能性,使得執(zhí)行各種任務(wù)變得可能。

它不僅簡化了將文本轉(zhuǎn)換成視頻的過程,還能模擬出數(shù)字世界,展現(xiàn)出前所未有的靈活性和效率。

- 開源貢獻(xiàn):

Mora的開源特性是對AI社區(qū)一個重要的貢獻(xiàn),它通過提供一個堅(jiān)實(shí)的基礎(chǔ),鼓勵進(jìn)一步的發(fā)展和完善,為未來的研究奠定了基礎(chǔ)。

如此一來,不僅可以讓高級視頻生成技術(shù)更加普及,還促進(jìn)了該領(lǐng)域內(nèi)的合作和創(chuàng)新。

局限性

- 視頻數(shù)據(jù)至關(guān)重要:

想捕捉人類動作的細(xì)微差別,就需要高分辨率、流暢的視頻序列。這樣才能夠詳細(xì)展現(xiàn)動力學(xué)的各個方面,包括平衡、姿勢及與環(huán)境的互動。

但高質(zhì)量的視頻數(shù)據(jù)集多來源于如電影、電視節(jié)目和專有游戲畫面等專業(yè)渠道。其中往往包含受版權(quán)保護(hù)的材料,不易合法收集或使用。

而缺乏這些數(shù)據(jù)集,使得像Mora這樣的視頻生成模型難以模擬人類在現(xiàn)實(shí)環(huán)境中的動作,如走路或騎自行車。

- 質(zhì)量與長度的差距:

Mora雖然可以完成類似Sora的任務(wù),但在涉及大量物體移動的場景中,生成的視頻質(zhì)量明顯不高,質(zhì)量隨視頻長度增加而降低,尤其是在超過12秒之后。

- 指令跟隨能力:

Mora雖然可以在視頻中包含提示所指定的所有對象,但它難以準(zhǔn)確解釋和展示提示中描述的運(yùn)動動態(tài),比如移動速度。

此外,Mora還不能控制對象的運(yùn)動方向,比如無法讓對象向左或向右移動。

這些局限主要是因?yàn)镸ora的視頻生成,是基于圖像轉(zhuǎn)視頻的方法,而不是直接從文本提示中獲取指令。

- 人類偏好對齊:

由于視頻領(lǐng)域缺少人類的標(biāo)注信息,實(shí)驗(yàn)結(jié)果可能并不總是符合人類的視覺偏好。

舉個例子,上面其中的一個視頻拼接任務(wù),要求生成一個男性逐漸變成女性的過渡視頻,看起來非常不合邏輯。

2
查看相關(guān)話題: #OpenAI #微軟 #Sora #mora

相關(guān)文章