亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

首頁(yè)  >  資訊  >  文章
2024-05-01 09:33

生數(shù)科技×清華團(tuán)隊(duì)自研國(guó)產(chǎn)純血「Sora級(jí)」AI視頻大模型火了:16秒時(shí)長(zhǎng),畫(huà)質(zhì)對(duì)標(biāo)Sora,還能理解物理世界

Sora席卷世界,也掀起了全球競(jìng)逐AI視頻生成的熱潮。

近日,國(guó)內(nèi)一支短片引發(fā)關(guān)注。視頻來(lái)自生數(shù)科技聯(lián)合清華大學(xué)最新發(fā)布的視頻大模型「Vidu」。

從官宣消息看,「Vidu」支持一鍵生成長(zhǎng)達(dá)16秒、分辨率達(dá)1080p的高清視頻內(nèi)容。

更令人驚喜的是,「Vidu」畫(huà)面效果非常接近Sora,在多鏡頭語(yǔ)言、時(shí)間和空間一致性、遵循物理規(guī)律等方面表現(xiàn)都十分出色,而且還能虛構(gòu)出真實(shí)世界不存在的超現(xiàn)實(shí)主義畫(huà)面,這是當(dāng)前的視頻生成模型難以實(shí)現(xiàn)的。

并且實(shí)現(xiàn)這般效果,背后團(tuán)隊(duì)只用了兩個(gè)月的時(shí)間。

全面對(duì)標(biāo)Sora

3月中旬,生數(shù)科技聯(lián)合創(chuàng)始人兼CEO唐家渝就曾公開(kāi)表示:“今年內(nèi)一定能達(dá)到Sora目前版本的效果。”

現(xiàn)在,在生成時(shí)長(zhǎng)、時(shí)空一致性、鏡頭語(yǔ)言、物理模擬等方面,確實(shí)能看到「Vidu」在短時(shí)間內(nèi)已經(jīng)逼近Sora水平。

長(zhǎng)度突破10秒大關(guān)

「Vidu」生成的視頻不再是持續(xù)幾秒的「GIF」,而是達(dá)到了16秒,并且做到了畫(huà)面連續(xù)流暢,且有細(xì)節(jié)、邏輯連貫。

盡管都是運(yùn)動(dòng)畫(huà)面,但幾乎不會(huì)出現(xiàn)穿模、鬼影、運(yùn)動(dòng)不符合現(xiàn)實(shí)規(guī)律的問(wèn)題。

圖片

△提示:一艘木頭玩具船在地毯上航行

給視頻注入「鏡頭語(yǔ)言」

在視頻制作中有個(gè)非常重要的概念——鏡頭語(yǔ)言。通過(guò)不同的鏡頭選擇、角度、運(yùn)動(dòng)和組合,來(lái)表達(dá)故事情節(jié)、揭示角色心理、營(yíng)造氛圍以及引導(dǎo)觀眾情感。

現(xiàn)有AI生成的視頻,能夠明顯地感覺(jué)到鏡頭語(yǔ)言的單調(diào),鏡頭的運(yùn)動(dòng)局限于輕微幅度的推、拉、移等簡(jiǎn)單鏡頭。深究背后的原因看,因?yàn)楝F(xiàn)有的視頻內(nèi)容生成大多是先通過(guò)生成單幀畫(huà)面,再做連續(xù)的前后幀預(yù)測(cè),但主流的技術(shù)路徑,很難做到長(zhǎng)時(shí)序的連貫預(yù)測(cè),只能做到小幅的動(dòng)態(tài)預(yù)測(cè)。

「Vidu」則突破了這些局限。在一個(gè)「海邊小屋」為主題的片段中,我們可以看到,「Vidu」一次生成的一段片段中涉及多個(gè)鏡頭,畫(huà)面既有小屋的近景特寫(xiě),也有望向海面的遠(yuǎn)眺,整體看下來(lái)有種從屋內(nèi)到走廊再到欄桿邊賞景的敘事感。

圖片

包括從短片中的多個(gè)片段能看到,「Vidu」能直接生成轉(zhuǎn)場(chǎng)、追焦、長(zhǎng)鏡頭等效果,包括能夠生成影視級(jí)的鏡頭畫(huà)面,給視頻注入鏡頭語(yǔ)言,提升畫(huà)面的整體敘事感。

圖片

保持時(shí)間和空間的一致性

視頻畫(huà)面的連貫和流暢性至關(guān)重要,這背后其實(shí)是人物和場(chǎng)景的時(shí)空一致性,比如人物在空間中的運(yùn)動(dòng)始終保持一致,場(chǎng)景也不能在沒(méi)有任何轉(zhuǎn)場(chǎng)的情況下突變。而這一點(diǎn) AI 很難實(shí)現(xiàn),尤其時(shí)長(zhǎng)一長(zhǎng),AI生成的視頻將出現(xiàn)敘事斷裂、視覺(jué)不連貫、邏輯錯(cuò)誤等問(wèn)題, 這些問(wèn)題會(huì)嚴(yán)重影響視頻的真實(shí)感和觀賞性。

「Vidu」在一定程度上克服了這些問(wèn)題。從它生成的一段“帶珍珠耳環(huán)的貓”的視頻中可以看到,隨著鏡頭的移動(dòng),作為畫(huà)面主體的貓?jiān)?D空間下一直保持著表情、服飾的一致,視頻整體上連貫、流暢,保持了很好的時(shí)間、空間一致性。

圖片

△提示:這是一只藍(lán)眼睛的橙色貓的肖像,慢慢地旋轉(zhuǎn),靈感來(lái)自維米爾的《戴珍珠耳環(huán)的少女》,畫(huà)面上戴著珍珠耳環(huán),棕色頭發(fā)像荷蘭帽一樣,黑色背景,工作室燈光。

模擬真實(shí)物理世界

Sora令人驚艷的一大特點(diǎn),就是能夠模擬真實(shí)物理世界的運(yùn)動(dòng),例如物體的移動(dòng)和相互作用。

其中Sora有發(fā)布的一個(gè)經(jīng)典案例,“一輛老式SUV行駛在山坡上”的畫(huà)面,非常好地模擬了輪胎揚(yáng)起的灰塵、樹(shù)林中的光影以及車(chē)行駛過(guò)程中的陰影變化。在同樣的提示詞下,「Vidu」與Sora生成效果高度接近,灰塵、光影等細(xì)節(jié)與人類(lèi)在真實(shí)物理世界中的體驗(yàn)非常接近。

圖片

△提示:鏡頭跟隨一輛帶有黑色車(chē)頂行李架的白色老式SUV,它在陡峭的山坡上一條被松樹(shù)環(huán)繞的陡峭土路上加速行駛,輪胎揚(yáng)起灰塵,陽(yáng)光照射在SUV上,給整個(gè)場(chǎng)景投射出溫暖的光芒。土路緩緩地蜿蜒延伸至遠(yuǎn)方,看不到其他汽車(chē)或車(chē)輛。道路兩旁都是紅杉樹(shù),零星散落著一片片綠意。從后面看,這輛車(chē)輕松地沿著曲線(xiàn)行駛,看起來(lái)就像是在崎嶇的地形上行駛。土路周?chē)嵌盖偷那鹆旰蜕矫},上面是清澈的藍(lán)天和縷縷云彩。

當(dāng)然在“帶有黑色車(chē)頂行李架”的局部細(xì)節(jié)上,「Vidu」沒(méi)能生成出來(lái),但也瑕不掩瑜,整體效果已高度接近真實(shí)世界。

豐富的想象力

與實(shí)景拍攝相比,用AI生成視頻有一個(gè)很大的優(yōu)勢(shì)——它可以生成現(xiàn)實(shí)世界中不存在的畫(huà)面。以往,這些畫(huà)面往往要花費(fèi)很大的人力、物力去搭建或做成特效,但是AI短時(shí)間就可以自動(dòng)生成了。

比如在下面這個(gè)場(chǎng)景中,「帆船」、「海浪」罕見(jiàn)地出現(xiàn)在了畫(huà)室里,而且海浪與帆船的交互動(dòng)態(tài)非常自然。

圖片

包括短片中的“魚(yú)缸女孩”的片段,奇幻但又具有一定的合理感,這種能夠虛構(gòu)真實(shí)世界不存在的畫(huà)面,對(duì)于創(chuàng)作超現(xiàn)實(shí)主義內(nèi)容非常有幫助,不僅可以激發(fā)創(chuàng)作者的靈感,提供新穎的視覺(jué)體驗(yàn),還能拓寬藝術(shù)表達(dá)的邊界,帶來(lái)更加豐富和多元化的內(nèi)容形式。

圖片

理解中國(guó)元素

除了以上四方面的特點(diǎn)外,我們從「Vidu」放出的短片中還看到了一些不一樣的驚喜,「Vidu」能夠生成特有中國(guó)元素的畫(huà)面,比如熊貓、龍、宮殿場(chǎng)景等。

圖片

△提示:在寧?kù)o的湖邊,一只熊貓熱切地彈著吉他,讓整個(gè)環(huán)境變得活躍起來(lái)。晴朗天空下平靜的水面倒映著這一場(chǎng)景,以生動(dòng)的全景鏡頭捕捉到,將現(xiàn)實(shí)主義與大熊貓活潑的精神融為一體,創(chuàng)造出活力與平靜的和諧融合。

兩個(gè)月快速突破的“秘籍”

此前,唐家渝給出的趕上Sora的時(shí)間,是“很難說(shuō)是三個(gè)月還是半年”。

但如今僅僅過(guò)去一個(gè)多月時(shí)間,團(tuán)隊(duì)就實(shí)現(xiàn)了突破,而且據(jù)透露,3月份公司內(nèi)部就實(shí)現(xiàn)了8秒的視頻生成,緊接著4月份突破了16秒生成。短短兩個(gè)月時(shí)間,背后是如何做到的?

一、選對(duì)了技術(shù)路線(xiàn)

「Vidu」底層基于完全自研的U-ViT架構(gòu),該架構(gòu)由團(tuán)隊(duì)在2022年9月提出,早于Sora采用的DiT架構(gòu),是全球首個(gè)Diffusion和Transformer融合的架構(gòu)。

圖片

Transformer架構(gòu)被廣泛應(yīng)用于大語(yǔ)言模型,該架構(gòu)的優(yōu)勢(shì)在于scale特性,參數(shù)量越大,效果越好,而Diffusion被常用于傳統(tǒng)視覺(jué)任務(wù)(圖像和視頻生成)中。

融合架構(gòu)就是在Diffusion Model(擴(kuò)散模型)中,用Transformer替換常用的U-Net卷積網(wǎng)絡(luò),將Transformer的可擴(kuò)展性與Diffusion模型處理視覺(jué)數(shù)據(jù)的天然優(yōu)勢(shì)進(jìn)行融合,能在視覺(jué)任務(wù)下展現(xiàn)出卓越的涌現(xiàn)能力。

不同于市面上之前的一些“類(lèi)Sora”模型,長(zhǎng)視頻的實(shí)現(xiàn)其實(shí)是通過(guò)插幀的方式,在視頻的每?jī)蓭?huà)面中增加一幀或多幀來(lái)提升視頻的長(zhǎng)度。這種方法就需要對(duì)視頻進(jìn)行逐幀處理,通過(guò)插入額外的幀來(lái)改善視頻長(zhǎng)度和質(zhì)量。整體畫(huà)面就會(huì)顯得僵硬而又緩慢。

另外,還有一些視頻工具看似實(shí)現(xiàn)了長(zhǎng)視頻,實(shí)際打了“擦邊球”。底層集合了許多其他模型工作,比如先基于Stable Diffusion、Midjourney生成單張畫(huà)面,再圖生4s短視頻,再做拼接。表面看時(shí)長(zhǎng)是長(zhǎng)了,但本質(zhì)還是“短視頻生成”的內(nèi)核。

但「Vidu」基于純自研的融合架構(gòu),底層是“一步到位”,不涉及中間的插幀和拼接等多步驟的處理,文本到視頻的轉(zhuǎn)換是直接且連續(xù)的。直觀上,我們可以看到“一鏡到底”的絲滑感,視頻從頭到尾連續(xù)生成,沒(méi)有插幀痕跡。

二、扎實(shí)的工程化基礎(chǔ)

早在2023年3月,基于U-ViT架構(gòu),團(tuán)隊(duì)在開(kāi)源的大規(guī)模圖文數(shù)據(jù)集LAION-5B上就訓(xùn)練了10億參數(shù)量的多模態(tài)模型——UniDiffuser,并將其開(kāi)源。

UniDiffuser主要擅長(zhǎng)圖文任務(wù),能支持圖文模態(tài)間的任意生成和轉(zhuǎn)換。UniDiffuser的實(shí)現(xiàn)有一項(xiàng)重要的價(jià)值——首次驗(yàn)證了融合架構(gòu)在大規(guī)模訓(xùn)練任務(wù)中的可擴(kuò)展性(Scaling Law),相當(dāng)于將U-ViT 架構(gòu)在大規(guī)模訓(xùn)練任務(wù)中的所有環(huán)節(jié)流程都跑通。值得一提的,同樣是圖文模型,UniDiffuser比最近才切換到DiT架構(gòu)的Stable Diffusion 3領(lǐng)先了一年。

圖片

這些在圖文任務(wù)中積累工程經(jīng)驗(yàn)為視頻模型的研發(fā)打下了基礎(chǔ)。因?yàn)橐曨l本質(zhì)上是圖像的流,相當(dāng)于是圖像在時(shí)間軸上做了一個(gè)擴(kuò)增。因此,在圖文任務(wù)上取得的成果往往能夠在視頻任務(wù)中得到復(fù)用。Sora就是這么做的:它采用了DALL·E 3的重標(biāo)注技術(shù),通過(guò)為視覺(jué)訓(xùn)練數(shù)據(jù)生成詳細(xì)的描述,使模型能夠更加準(zhǔn)確地遵循用戶(hù)的文本指令生成視頻。

據(jù)悉,「Vidu」也復(fù)用了生數(shù)科技在圖文任務(wù)的很多經(jīng)驗(yàn),包括訓(xùn)練加速、并行化訓(xùn)練、低顯存訓(xùn)練等等,從而快速跑通了訓(xùn)練流程。據(jù)悉,他們通過(guò)視頻數(shù)據(jù)壓縮技術(shù)降低輸入數(shù)據(jù)的序列維度,同時(shí)采用自研的分布式訓(xùn)練框架,在保證計(jì)算精度的同時(shí),通信效率提升1倍,顯存開(kāi)銷(xiāo)降低80%,訓(xùn)練速度累計(jì)提升40倍。

從圖任務(wù)的統(tǒng)一到融合視頻能力,「Vidu」可被視為一款通用視覺(jué)模型,能夠支持生成更加多樣化、更長(zhǎng)時(shí)長(zhǎng)的視頻內(nèi)容,官方也透露,「Vidu」目前并在加速迭代提升,面向未來(lái),「Vidu」靈活的模型架構(gòu)也將能夠兼容更廣泛的多模態(tài)能力。

7
查看相關(guān)話(huà)題: #AI視頻 #生數(shù)科技 #Vidu

相關(guān)文章