流暢絲滑不閃屏:谷歌發(fā)布第三款視頻生成模型Lumiere:運動幅度大,生成一致性良好
AI奇點網(wǎng)1月29日報道丨當(dāng)?shù)貢r間1月23日,谷歌研究院(Google Research)發(fā)布旗下的第三款A(yù)I視頻生成模型——Lumiere。這是谷歌發(fā)布的又一款視頻大模型。這次的模型演示視頻質(zhì)量非常高,運動幅度和一致性表現(xiàn)也很好。除了視頻生成,該模型還支持各種視頻編輯和生成控制能力,可以說是包羅萬象,能力值技能點拉滿。
據(jù)了解,Lumiere 是一款架構(gòu)先進的創(chuàng)新視頻模型,專門用于將文本轉(zhuǎn)換為視頻,這在視頻合成領(lǐng)域是一大挑戰(zhàn)。相比于Runway、Pika等主要競爭對手采用擴散模型不同,為了實現(xiàn)這一目標(biāo),谷歌采用了一種創(chuàng)新的【空間-時間】U-Net 架構(gòu)。
這種架構(gòu)與傳統(tǒng)視頻模型不同,能夠一次性完成整個視頻時長的生成,與傳統(tǒng)視頻模型不同。而傳統(tǒng)模型通常是先合成關(guān)鍵動作節(jié)點的遠程幀,然后通過時間上的超級分辨率技術(shù)來處理,生成中間過渡的補償靜態(tài)幀,這種方法難以確保視頻的全局時間的連貫性與一致性。
?詳細介紹:
谷歌發(fā)布今年首個AI視頻全能模型Lumiere:迄今為止最強大,畫質(zhì)逆天,水時長第一,生成視頻流暢一塌糊涂
當(dāng)?shù)貢r間1月24日,谷歌發(fā)布旗下第三款視頻模型Lumiere,這是一款先進的模型,專門用于將文本轉(zhuǎn)換為視頻,谷歌采用了一種創(chuàng)新的[空間-時間]U-Net架構(gòu)。
谷歌Lumiere通過在空間和關(guān)鍵的時間維度進行上下采樣,并利用預(yù)先訓(xùn)練好的文本到圖像擴散模型,使得該模型能夠直接生成全幀率、低分辨率的視頻,并且在多個空間-時間尺度上進行處理。
通過這種全新的技術(shù)手段,谷歌的Lumiere可以實現(xiàn)個性化的視頻編輯能力,比如針對視頻里邊的某個對象進行內(nèi)容調(diào)整、上傳參考圖進行遷移創(chuàng)作新的視頻風(fēng)格、讓靜態(tài)圖像里邊的某個對象運動起來等等。
我們看幾個Demo:
谷歌發(fā)布的該模型在將文本轉(zhuǎn)換成視頻方面取得了領(lǐng)先成果,并證明了該設(shè)計能夠輕松應(yīng)用于各種內(nèi)容創(chuàng)作和視頻編輯任務(wù),包括將圖像轉(zhuǎn)換為視頻、視頻修補和風(fēng)格化視頻創(chuàng)作。
如果你對于這款新模型感興趣的話,可以訪問他們的網(wǎng)頁,據(jù)說后續(xù)還會開源唷~~
項目主頁: