亚洲最大av网站在线观看,亚洲精品久久久www小说

亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

首頁(yè) > 資訊 > 文章

2024-05-01 09:33

生數(shù)科技×清華團(tuán)隊(duì)自研國(guó)產(chǎn)純血「Sora級(jí)」AI視頻大模型火了：16秒時(shí)長(zhǎng)，畫(huà)質(zhì)對(duì)標(biāo)Sora，還能理解物理世界

Sora席卷世界，也掀起了全球競(jìng)逐AI視頻生成的熱潮。

近日，國(guó)內(nèi)一支短片引發(fā)關(guān)注。視頻來(lái)自生數(shù)科技聯(lián)合清華大學(xué)最新發(fā)布的視頻大模型「Vidu」。

從官宣消息看，「Vidu」支持一鍵生成長(zhǎng)達(dá)16秒、分辨率達(dá)1080p的高清視頻內(nèi)容。

更令人驚喜的是，「Vidu」畫(huà)面效果非常接近Sora，在多鏡頭語(yǔ)言、時(shí)間和空間一致性、遵循物理規(guī)律等方面表現(xiàn)都十分出色，而且還能虛構(gòu)出真實(shí)世界不存在的超現(xiàn)實(shí)主義畫(huà)面，這是當(dāng)前的視頻生成模型難以實(shí)現(xiàn)的。

并且實(shí)現(xiàn)這般效果，背后團(tuán)隊(duì)只用了兩個(gè)月的時(shí)間。

全面對(duì)標(biāo)Sora

3月中旬，生數(shù)科技聯(lián)合創(chuàng)始人兼CEO唐家渝就曾公開(kāi)表示：“今年內(nèi)一定能達(dá)到Sora目前版本的效果。”

現(xiàn)在，在生成時(shí)長(zhǎng)、時(shí)空一致性、鏡頭語(yǔ)言、物理模擬等方面，確實(shí)能看到「Vidu」在短時(shí)間內(nèi)已經(jīng)逼近Sora水平。

長(zhǎng)度突破10秒大關(guān)

「Vidu」生成的視頻不再是持續(xù)幾秒的「GIF」，而是達(dá)到了16秒，并且做到了畫(huà)面連續(xù)流暢，且有細(xì)節(jié)、邏輯連貫。

盡管都是運(yùn)動(dòng)畫(huà)面，但幾乎不會(huì)出現(xiàn)穿模、鬼影、運(yùn)動(dòng)不符合現(xiàn)實(shí)規(guī)律的問(wèn)題。

△提示：一艘木頭玩具船在地毯上航行

給視頻注入「鏡頭語(yǔ)言」

在視頻制作中有個(gè)非常重要的概念——鏡頭語(yǔ)言。通過(guò)不同的鏡頭選擇、角度、運(yùn)動(dòng)和組合，來(lái)表達(dá)故事情節(jié)、揭示角色心理、營(yíng)造氛圍以及引導(dǎo)觀眾情感。

現(xiàn)有AI生成的視頻，能夠明顯地感覺(jué)到鏡頭語(yǔ)言的單調(diào)，鏡頭的運(yùn)動(dòng)局限于輕微幅度的推、拉、移等簡(jiǎn)單鏡頭。深究背后的原因看，因?yàn)楝F(xiàn)有的視頻內(nèi)容生成大多是先通過(guò)生成單幀畫(huà)面，再做連續(xù)的前后幀預(yù)測(cè)，但主流的技術(shù)路徑，很難做到長(zhǎng)時(shí)序的連貫預(yù)測(cè)，只能做到小幅的動(dòng)態(tài)預(yù)測(cè)。

「Vidu」則突破了這些局限。在一個(gè)「海邊小屋」為主題的片段中，我們可以看到，「Vidu」一次生成的一段片段中涉及多個(gè)鏡頭，畫(huà)面既有小屋的近景特寫(xiě)，也有望向海面的遠(yuǎn)眺，整體看下來(lái)有種從屋內(nèi)到走廊再到欄桿邊賞景的敘事感。

包括從短片中的多個(gè)片段能看到，「Vidu」能直接生成轉(zhuǎn)場(chǎng)、追焦、長(zhǎng)鏡頭等效果，包括能夠生成影視級(jí)的鏡頭畫(huà)面，給視頻注入鏡頭語(yǔ)言，提升畫(huà)面的整體敘事感。

保持時(shí)間和空間的一致性

視頻畫(huà)面的連貫和流暢性至關(guān)重要，這背后其實(shí)是人物和場(chǎng)景的時(shí)空一致性，比如人物在空間中的運(yùn)動(dòng)始終保持一致，場(chǎng)景也不能在沒(méi)有任何轉(zhuǎn)場(chǎng)的情況下突變。而這一點(diǎn) AI 很難實(shí)現(xiàn)，尤其時(shí)長(zhǎng)一長(zhǎng)，AI生成的視頻將出現(xiàn)敘事斷裂、視覺(jué)不連貫、邏輯錯(cuò)誤等問(wèn)題，這些問(wèn)題會(huì)嚴(yán)重影響視頻的真實(shí)感和觀賞性。

「Vidu」在一定程度上克服了這些問(wèn)題。從它生成的一段“帶珍珠耳環(huán)的貓”的視頻中可以看到，隨著鏡頭的移動(dòng)，作為畫(huà)面主體的貓?jiān)?D空間下一直保持著表情、服飾的一致，視頻整體上連貫、流暢，保持了很好的時(shí)間、空間一致性。

△提示：這是一只藍(lán)眼睛的橙色貓的肖像，慢慢地旋轉(zhuǎn)，靈感來(lái)自維米爾的《戴珍珠耳環(huán)的少女》，畫(huà)面上戴著珍珠耳環(huán)，棕色頭發(fā)像荷蘭帽一樣，黑色背景，工作室燈光。

模擬真實(shí)物理世界

Sora令人驚艷的一大特點(diǎn)，就是能夠模擬真實(shí)物理世界的運(yùn)動(dòng)，例如物體的移動(dòng)和相互作用。

其中Sora有發(fā)布的一個(gè)經(jīng)典案例，“一輛老式SUV行駛在山坡上”的畫(huà)面，非常好地模擬了輪胎揚(yáng)起的灰塵、樹(shù)林中的光影以及車(chē)行駛過(guò)程中的陰影變化。在同樣的提示詞下，「Vidu」與Sora生成效果高度接近，灰塵、光影等細(xì)節(jié)與人類(lèi)在真實(shí)物理世界中的體驗(yàn)非常接近。

△提示：鏡頭跟隨一輛帶有黑色車(chē)頂行李架的白色老式SUV，它在陡峭的山坡上一條被松樹(shù)環(huán)繞的陡峭土路上加速行駛，輪胎揚(yáng)起灰塵，陽(yáng)光照射在SUV上，給整個(gè)場(chǎng)景投射出溫暖的光芒。土路緩緩地蜿蜒延伸至遠(yuǎn)方，看不到其他汽車(chē)或車(chē)輛。道路兩旁都是紅杉樹(shù)，零星散落著一片片綠意。從后面看，這輛車(chē)輕松地沿著曲線(xiàn)行駛，看起來(lái)就像是在崎嶇的地形上行駛。土路周?chē)嵌盖偷那鹆旰蜕矫}，上面是清澈的藍(lán)天和縷縷云彩。

當(dāng)然在“帶有黑色車(chē)頂行李架”的局部細(xì)節(jié)上，「Vidu」沒(méi)能生成出來(lái)，但也瑕不掩瑜，整體效果已高度接近真實(shí)世界。

豐富的想象力

與實(shí)景拍攝相比，用AI生成視頻有一個(gè)很大的優(yōu)勢(shì)——它可以生成現(xiàn)實(shí)世界中不存在的畫(huà)面。以往，這些畫(huà)面往往要花費(fèi)很大的人力、物力去搭建或做成特效，但是AI短時(shí)間就可以自動(dòng)生成了。

比如在下面這個(gè)場(chǎng)景中，「帆船」、「海浪」罕見(jiàn)地出現(xiàn)在了畫(huà)室里，而且海浪與帆船的交互動(dòng)態(tài)非常自然。

包括短片中的“魚(yú)缸女孩”的片段，奇幻但又具有一定的合理感，這種能夠虛構(gòu)真實(shí)世界不存在的畫(huà)面，對(duì)于創(chuàng)作超現(xiàn)實(shí)主義內(nèi)容非常有幫助，不僅可以激發(fā)創(chuàng)作者的靈感，提供新穎的視覺(jué)體驗(yàn)，還能拓寬藝術(shù)表達(dá)的邊界，帶來(lái)更加豐富和多元化的內(nèi)容形式。

理解中國(guó)元素

除了以上四方面的特點(diǎn)外，我們從「Vidu」放出的短片中還看到了一些不一樣的驚喜，「Vidu」能夠生成特有中國(guó)元素的畫(huà)面，比如熊貓、龍、宮殿場(chǎng)景等。

△提示：在寧?kù)o的湖邊，一只熊貓熱切地彈著吉他，讓整個(gè)環(huán)境變得活躍起來(lái)。晴朗天空下平靜的水面倒映著這一場(chǎng)景，以生動(dòng)的全景鏡頭捕捉到，將現(xiàn)實(shí)主義與大熊貓活潑的精神融為一體，創(chuàng)造出活力與平靜的和諧融合。

兩個(gè)月快速突破的“秘籍”

此前，唐家渝給出的趕上Sora的時(shí)間，是“很難說(shuō)是三個(gè)月還是半年”。

但如今僅僅過(guò)去一個(gè)多月時(shí)間，團(tuán)隊(duì)就實(shí)現(xiàn)了突破，而且據(jù)透露，3月份公司內(nèi)部就實(shí)現(xiàn)了8秒的視頻生成，緊接著4月份突破了16秒生成。短短兩個(gè)月時(shí)間，背后是如何做到的?

一、選對(duì)了技術(shù)路線(xiàn)

「Vidu」底層基于完全自研的U-ViT架構(gòu)，該架構(gòu)由團(tuán)隊(duì)在2022年9月提出，早于Sora采用的DiT架構(gòu)，是全球首個(gè)Diffusion和Transformer融合的架構(gòu)。

Transformer架構(gòu)被廣泛應(yīng)用于大語(yǔ)言模型，該架構(gòu)的優(yōu)勢(shì)在于scale特性，參數(shù)量越大，效果越好，而Diffusion被常用于傳統(tǒng)視覺(jué)任務(wù)(圖像和視頻生成)中。

融合架構(gòu)就是在Diffusion Model(擴(kuò)散模型)中，用Transformer替換常用的U-Net卷積網(wǎng)絡(luò)，將Transformer的可擴(kuò)展性與Diffusion模型處理視覺(jué)數(shù)據(jù)的天然優(yōu)勢(shì)進(jìn)行融合，能在視覺(jué)任務(wù)下展現(xiàn)出卓越的涌現(xiàn)能力。

不同于市面上之前的一些“類(lèi)Sora”模型，長(zhǎng)視頻的實(shí)現(xiàn)其實(shí)是通過(guò)插幀的方式，在視頻的每?jī)蓭?huà)面中增加一幀或多幀來(lái)提升視頻的長(zhǎng)度。這種方法就需要對(duì)視頻進(jìn)行逐幀處理，通過(guò)插入額外的幀來(lái)改善視頻長(zhǎng)度和質(zhì)量。整體畫(huà)面就會(huì)顯得僵硬而又緩慢。

另外，還有一些視頻工具看似實(shí)現(xiàn)了長(zhǎng)視頻，實(shí)際打了“擦邊球”。底層集合了許多其他模型工作，比如先基于Stable Diffusion、Midjourney生成單張畫(huà)面，再圖生4s短視頻，再做拼接。表面看時(shí)長(zhǎng)是長(zhǎng)了，但本質(zhì)還是“短視頻生成”的內(nèi)核。

但「Vidu」基于純自研的融合架構(gòu)，底層是“一步到位”，不涉及中間的插幀和拼接等多步驟的處理，文本到視頻的轉(zhuǎn)換是直接且連續(xù)的。直觀上，我們可以看到“一鏡到底”的絲滑感，視頻從頭到尾連續(xù)生成，沒(méi)有插幀痕跡。

二、扎實(shí)的工程化基礎(chǔ)

早在2023年3月，基于U-ViT架構(gòu)，團(tuán)隊(duì)在開(kāi)源的大規(guī)模圖文數(shù)據(jù)集LAION-5B上就訓(xùn)練了10億參數(shù)量的多模態(tài)模型——UniDiffuser，并將其開(kāi)源。

UniDiffuser主要擅長(zhǎng)圖文任務(wù)，能支持圖文模態(tài)間的任意生成和轉(zhuǎn)換。UniDiffuser的實(shí)現(xiàn)有一項(xiàng)重要的價(jià)值——首次驗(yàn)證了融合架構(gòu)在大規(guī)模訓(xùn)練任務(wù)中的可擴(kuò)展性(Scaling Law)，相當(dāng)于將U-ViT 架構(gòu)在大規(guī)模訓(xùn)練任務(wù)中的所有環(huán)節(jié)流程都跑通。值得一提的，同樣是圖文模型，UniDiffuser比最近才切換到DiT架構(gòu)的Stable Diffusion 3領(lǐng)先了一年。

這些在圖文任務(wù)中積累工程經(jīng)驗(yàn)為視頻模型的研發(fā)打下了基礎(chǔ)。因?yàn)橐曨l本質(zhì)上是圖像的流，相當(dāng)于是圖像在時(shí)間軸上做了一個(gè)擴(kuò)增。因此，在圖文任務(wù)上取得的成果往往能夠在視頻任務(wù)中得到復(fù)用。Sora就是這么做的：它采用了DALL·E 3的重標(biāo)注技術(shù)，通過(guò)為視覺(jué)訓(xùn)練數(shù)據(jù)生成詳細(xì)的描述，使模型能夠更加準(zhǔn)確地遵循用戶(hù)的文本指令生成視頻。

據(jù)悉，「Vidu」也復(fù)用了生數(shù)科技在圖文任務(wù)的很多經(jīng)驗(yàn)，包括訓(xùn)練加速、并行化訓(xùn)練、低顯存訓(xùn)練等等，從而快速跑通了訓(xùn)練流程。據(jù)悉，他們通過(guò)視頻數(shù)據(jù)壓縮技術(shù)降低輸入數(shù)據(jù)的序列維度，同時(shí)采用自研的分布式訓(xùn)練框架，在保證計(jì)算精度的同時(shí)，通信效率提升1倍，顯存開(kāi)銷(xiāo)降低80%，訓(xùn)練速度累計(jì)提升40倍。

從圖任務(wù)的統(tǒng)一到融合視頻能力，「Vidu」可被視為一款通用視覺(jué)模型，能夠支持生成更加多樣化、更長(zhǎng)時(shí)長(zhǎng)的視頻內(nèi)容，官方也透露，「Vidu」目前并在加速迭代提升，面向未來(lái)，「Vidu」靈活的模型架構(gòu)也將能夠兼容更廣泛的多模態(tài)能力。