亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

首頁  >  資訊  >  文章
2024-04-29 11:35

生數(shù)科技清華團(tuán)隊(duì)出手非凡:最強(qiáng)國產(chǎn)類Sora視頻模型「Vidu」發(fā)布,效果一鳴驚人!

圖片

OpenAI“驚世駭俗”的Sora視頻生成模型推出還不到一個季度,中國首個長時長、高度一致性、高動態(tài)性控制的視頻大模型「Vidu」誕生。

雖然一度落后,但我們快馬加鞭就趕上了!

日前,由清華大學(xué)教授、生數(shù)科技首席科學(xué)家朱軍領(lǐng)銜的「Vidu」團(tuán)隊(duì)對外宣布,國內(nèi)首個純自研的長時長、高一致性、高動態(tài)性控制的視頻大模型正式亮相。

廢話不多說,直接上鏈接?:

生數(shù)科技是一家中國人工智能大模型研究企業(yè),去年初成立,是目前國內(nèi)估值最高的「Sora概念」創(chuàng)業(yè)公司。

在Sora發(fā)布后,今年3月中旬,生數(shù)科技CEO唐家渝對媒體透露:“年內(nèi)目標(biāo)要達(dá)到跟Sora一樣的效果。”

現(xiàn)如今,首個「Vidu」模型版本亮相,在一致性與時長方面都給人非常眼前一亮的印象。

AI視頻時長突破10秒大關(guān)

在去年,AI視頻通常只能生成3~4秒。

「Vidu」生成的視頻最長可達(dá)16秒,并且畫面穩(wěn)定流暢不閃屏,細(xì)節(jié)豐富、邏輯連貫。

即便像“海上飄蕩的小船”這種畫面,也沒有出現(xiàn)穿模、鬼影、運(yùn)動不符合物理的常見Bug。

圖片

話說回來,Sora之所以讓世人感到驚艷,歸根到底是因?yàn)锳I視頻注入了「鏡頭語言」。

生數(shù)科技的起點(diǎn)非常高~

朱軍博士在發(fā)布會現(xiàn)場直接將「Vidu」與行業(yè)領(lǐng)導(dǎo)者的文生視頻模型的效果進(jìn)行對標(biāo)。

圖片

他直言,「Vidu」在16秒內(nèi)的視頻創(chuàng)作與語義理解方面表現(xiàn)非常突出。

在發(fā)布會上,Vidu團(tuán)隊(duì)展示同款提示詞直接對標(biāo)Runway Gen-2與Pika。

圖片

并且公布了「Vidu」生成Sora官方案例的視頻效果對比,可圈可點(diǎn)。

圖片

??讓我們放大動圖仔細(xì)來看,每一臺?電視機(jī)都有獨(dú)立的畫面內(nèi)容。

「Vidu」的本質(zhì)仍然一款文生視頻模型,采用的是“一步到位”的生成方式,與Sora一樣可以直接輸出高質(zhì)量的“長視頻”。

在底層算法實(shí)現(xiàn)上是基于單一模型完全「端到端」生成,與國內(nèi)其他阿貓阿狗通過關(guān)鍵幀插幀增長的處理方式完全不同。

五大特色,國內(nèi)遙遙領(lǐng)先

在性能參數(shù)方面,「Vidu」支持一鍵生成長度為16秒、1080P分辨率的高清視頻內(nèi)容。

該視頻模型具備5大亮點(diǎn):

  • 模擬真實(shí)物理世界
  • 富有想象力
  • 多機(jī)位鏡頭語言
  • 高時空一致性
  • 理解中國元素等特色

模擬真實(shí)物理世界

「Vidu」能夠生成復(fù)雜、細(xì)節(jié)豐富的現(xiàn)實(shí)世界場景,并且符合物理規(guī)律,例如:合理的光影效果、細(xì)膩的人物表情等。

圖片

比如輸出一輛SUV汽車加速行駛在陡峭土路上的場景,感覺就像是無人機(jī)實(shí)拍。

富有想象力

「Vidu」能夠生成真實(shí)世界不存在的虛構(gòu)畫面,創(chuàng)造出具有深度和復(fù)雜性的超現(xiàn)實(shí)主義內(nèi)容。

圖片

比如一艘畫室里的一艘船駛向鏡頭”生成的視頻。

多機(jī)位鏡頭語言

「Vidu」能夠生成復(fù)雜的動態(tài)鏡頭,不再局限于簡單的推、拉、移等基礎(chǔ)鏡頭,而是能夠圍繞單一主題實(shí)現(xiàn)遠(yuǎn)景、近景、中景、特寫等不同鏡頭取景切換,實(shí)現(xiàn)多樣化的長鏡頭、追焦、轉(zhuǎn)場等效果,給視頻注入豐富的鏡頭語言。

圖片

比方說,生成一間海邊的度假小屋宣傳視頻:陽光沐浴著房間,鏡頭緩慢過渡到陽臺,俯瞰著壯闊的大海,最后鏡頭定格在大海、帆船和夢幻的云彩。

高時空一致性

在16秒的時長上始終保持著連貫流暢的鏡頭語言,隨著鏡頭的移動,角色與場景在時間、空間能夠保持高度一致性,不會出現(xiàn)掉幀或者穿模、模糊。

圖片

比如這一幅《戴珍珠耳環(huán)的女孩》經(jīng)典畫作的「貓咪版」變體創(chuàng)作,藍(lán)眼睛的大橘取代了原本的女主,緩緩地轉(zhuǎn)頭回眸。

理解中國元素

作為一款國產(chǎn)視頻大模型,「Vidu」比Sora等國外模型,更能充分理解并生成具有中式鮮明特征的畫面元素,例如:熊貓、龍等。

圖片

這是「Vidu」根據(jù)提示詞生成湖邊彈吉他的熊貓。?將現(xiàn)實(shí)主義與藝術(shù)創(chuàng)作相結(jié)合,熊貓沐浴在陽光下光影也十分自然。

兩個月快速突破的秘籍

要比拼「卷」的功力,OpenAI還真不一定卷得過中國人。

生數(shù)科技的核心團(tuán)隊(duì)來自清華大學(xué)人工智能研究院的班底。首席科學(xué)家由清華人工智能研究院副院長朱軍領(lǐng)銜;CEO唐家渝出自清華大學(xué)計(jì)算機(jī)系。

圖片

唐家渝在3月份面對記者時,還顯得并不那么自信,當(dāng)時他給出趕上Sora的時間表,“很難說是三個月還是半年”。

如今實(shí)際還不到2個月,團(tuán)隊(duì)就實(shí)現(xiàn)了重大突破,背后是如何做到的?

據(jù)了解,選對技術(shù)路線最為關(guān)鍵——

「Vidu」底層架構(gòu)基于完全自研的U-ViT架構(gòu),該架構(gòu)由生數(shù)科技團(tuán)隊(duì)在2022年9月提出,甚至早于Sora采用的DiT架構(gòu)。并于2023年3月,也就是一年前完善了架構(gòu)的框架設(shè)計(jì)。

圖片

U-ViT架構(gòu)是全球首個基于Diffusion擴(kuò)散模型與生成式AI基礎(chǔ)架構(gòu)Transformer融合的視頻生成架構(gòu)。

Transformer被認(rèn)為是當(dāng)今大語言模型的理論基礎(chǔ),訓(xùn)練參數(shù)量越大,則效果越好,而Diffusion常用于AI圖像與視頻生成。

圖片

早在2023年3月,該團(tuán)隊(duì)就將U-ViT架構(gòu)用于AI圖像生成,這比近期剛剛切換到DiT架構(gòu)的知名開源AI繪圖工具Stable Diffusion 3早了一整年。

因此,「Vidu」復(fù)用了生數(shù)科技在圖文生成任務(wù)的許多累積經(jīng)驗(yàn),快速跑通了視頻生成的訓(xùn)練流程。在保持高效訓(xùn)練效果的同時,GPU算力開支降低80%,訓(xùn)練速度累計(jì)提升40倍。

「Vidu」的橫空出世,讓我們對于中國AI視頻國產(chǎn)化技術(shù)路線落地有了更多的期待!

1
查看相關(guān)話題: #AI視頻 #生數(shù)科技 #Vidu

相關(guān)文章