生數(shù)科技清華團(tuán)隊(duì)出手非凡:最強(qiáng)國產(chǎn)類Sora視頻模型「Vidu」發(fā)布,效果一鳴驚人!
OpenAI“驚世駭俗”的Sora視頻生成模型推出還不到一個季度,中國首個長時長、高度一致性、高動態(tài)性控制的視頻大模型「Vidu」誕生。
雖然一度落后,但我們快馬加鞭就趕上了!
日前,由清華大學(xué)教授、生數(shù)科技首席科學(xué)家朱軍領(lǐng)銜的「Vidu」團(tuán)隊(duì)對外宣布,國內(nèi)首個純自研的長時長、高一致性、高動態(tài)性控制的視頻大模型正式亮相。
廢話不多說,直接上鏈接?:
生數(shù)科技是一家中國人工智能大模型研究企業(yè),去年初成立,是目前國內(nèi)估值最高的「Sora概念」創(chuàng)業(yè)公司。
在Sora發(fā)布后,今年3月中旬,生數(shù)科技CEO唐家渝對媒體透露:“年內(nèi)目標(biāo)要達(dá)到跟Sora一樣的效果。”
現(xiàn)如今,首個「Vidu」模型版本亮相,在一致性與時長方面都給人非常眼前一亮的印象。
在去年,AI視頻通常只能生成3~4秒。
「Vidu」生成的視頻最長可達(dá)16秒,并且畫面穩(wěn)定流暢不閃屏,細(xì)節(jié)豐富、邏輯連貫。
即便像“海上飄蕩的小船”這種畫面,也沒有出現(xiàn)穿模、鬼影、運(yùn)動不符合物理的常見Bug。
話說回來,Sora之所以讓世人感到驚艷,歸根到底是因?yàn)锳I視頻注入了「鏡頭語言」。
生數(shù)科技的起點(diǎn)非常高~
朱軍博士在發(fā)布會現(xiàn)場直接將「Vidu」與行業(yè)領(lǐng)導(dǎo)者的文生視頻模型的效果進(jìn)行對標(biāo)。
他直言,「Vidu」在16秒內(nèi)的視頻創(chuàng)作與語義理解方面表現(xiàn)非常突出。
在發(fā)布會上,Vidu團(tuán)隊(duì)展示同款提示詞直接對標(biāo)Runway Gen-2與Pika。
并且公布了「Vidu」生成Sora官方案例的視頻效果對比,可圈可點(diǎn)。
??讓我們放大動圖仔細(xì)來看,每一臺?電視機(jī)都有獨(dú)立的畫面內(nèi)容。
「Vidu」的本質(zhì)仍然一款文生視頻模型,采用的是“一步到位”的生成方式,與Sora一樣可以直接輸出高質(zhì)量的“長視頻”。
在底層算法實(shí)現(xiàn)上是基于單一模型完全「端到端」生成,與國內(nèi)其他阿貓阿狗通過關(guān)鍵幀插幀增長的處理方式完全不同。
在性能參數(shù)方面,「Vidu」支持一鍵生成長度為16秒、1080P分辨率的高清視頻內(nèi)容。
該視頻模型具備5大亮點(diǎn):
模擬真實(shí)物理世界
「Vidu」能夠生成復(fù)雜、細(xì)節(jié)豐富的現(xiàn)實(shí)世界場景,并且符合物理規(guī)律,例如:合理的光影效果、細(xì)膩的人物表情等。
比如輸出一輛SUV汽車加速行駛在陡峭土路上的場景,感覺就像是無人機(jī)實(shí)拍。
富有想象力
「Vidu」能夠生成真實(shí)世界不存在的虛構(gòu)畫面,創(chuàng)造出具有深度和復(fù)雜性的超現(xiàn)實(shí)主義內(nèi)容。
比如一艘畫室里的一艘船駛向鏡頭”生成的視頻。
多機(jī)位鏡頭語言
「Vidu」能夠生成復(fù)雜的動態(tài)鏡頭,不再局限于簡單的推、拉、移等基礎(chǔ)鏡頭,而是能夠圍繞單一主題實(shí)現(xiàn)遠(yuǎn)景、近景、中景、特寫等不同鏡頭取景切換,實(shí)現(xiàn)多樣化的長鏡頭、追焦、轉(zhuǎn)場等效果,給視頻注入豐富的鏡頭語言。
比方說,生成一間海邊的度假小屋宣傳視頻:陽光沐浴著房間,鏡頭緩慢過渡到陽臺,俯瞰著壯闊的大海,最后鏡頭定格在大海、帆船和夢幻的云彩。
高時空一致性
在16秒的時長上始終保持著連貫流暢的鏡頭語言,隨著鏡頭的移動,角色與場景在時間、空間能夠保持高度一致性,不會出現(xiàn)掉幀或者穿模、模糊。
比如這一幅《戴珍珠耳環(huán)的女孩》經(jīng)典畫作的「貓咪版」變體創(chuàng)作,藍(lán)眼睛的大橘取代了原本的女主,緩緩地轉(zhuǎn)頭回眸。
理解中國元素
作為一款國產(chǎn)視頻大模型,「Vidu」比Sora等國外模型,更能充分理解并生成具有中式鮮明特征的畫面元素,例如:熊貓、龍等。
這是「Vidu」根據(jù)提示詞生成湖邊彈吉他的熊貓。?將現(xiàn)實(shí)主義與藝術(shù)創(chuàng)作相結(jié)合,熊貓沐浴在陽光下光影也十分自然。
要比拼「卷」的功力,OpenAI還真不一定卷得過中國人。
生數(shù)科技的核心團(tuán)隊(duì)來自清華大學(xué)人工智能研究院的班底。首席科學(xué)家由清華人工智能研究院副院長朱軍領(lǐng)銜;CEO唐家渝出自清華大學(xué)計(jì)算機(jī)系。
唐家渝在3月份面對記者時,還顯得并不那么自信,當(dāng)時他給出趕上Sora的時間表,“很難說是三個月還是半年”。
如今實(shí)際還不到2個月,團(tuán)隊(duì)就實(shí)現(xiàn)了重大突破,背后是如何做到的?
據(jù)了解,選對技術(shù)路線最為關(guān)鍵——
「Vidu」底層架構(gòu)基于完全自研的U-ViT架構(gòu),該架構(gòu)由生數(shù)科技團(tuán)隊(duì)在2022年9月提出,甚至早于Sora采用的DiT架構(gòu)。并于2023年3月,也就是一年前完善了架構(gòu)的框架設(shè)計(jì)。
U-ViT架構(gòu)是全球首個基于Diffusion擴(kuò)散模型與生成式AI基礎(chǔ)架構(gòu)Transformer融合的視頻生成架構(gòu)。
Transformer被認(rèn)為是當(dāng)今大語言模型的理論基礎(chǔ),訓(xùn)練參數(shù)量越大,則效果越好,而Diffusion常用于AI圖像與視頻生成。
早在2023年3月,該團(tuán)隊(duì)就將U-ViT架構(gòu)用于AI圖像生成,這比近期剛剛切換到DiT架構(gòu)的知名開源AI繪圖工具Stable Diffusion 3早了一整年。
因此,「Vidu」復(fù)用了生數(shù)科技在圖文生成任務(wù)的許多累積經(jīng)驗(yàn),快速跑通了視頻生成的訓(xùn)練流程。在保持高效訓(xùn)練效果的同時,GPU算力開支降低80%,訓(xùn)練速度累計(jì)提升40倍。
「Vidu」的橫空出世,讓我們對于中國AI視頻國產(chǎn)化技術(shù)路線落地有了更多的期待!