中國版Sora來了!一鍵生成16秒1080P的AI視頻,清華團隊直面對標OpenAI
追趕 OpenAI 文生視頻模型 Sora 需要多久?
在中關村論壇未來人工智能先鋒論壇上,中國首個長時長、高一致性、高動態(tài)視頻大模型 Vidu 正式發(fā)布,支持一鍵生成長達 16 秒、分辨率為 1080P 的高清視頻內(nèi)容。
Vidu 生成的視頻 demo 甫一發(fā)布,便迅速在各大社交平臺的熱搜榜上「攻城略地」,被譽為效果層面最接近 Sora 的國內(nèi)大模型。
Sora 生成的視頻之所以令人驚艷,很大程度上歸功于其對真實物理世界運動的精確模擬,Vidu 也不遑多讓。
以加速行駛在土路上的 SUV 為例,Vidu 生成的揚塵效果要比 Sora 更到位。
并且,無論是光線的反射,還是陰影的變化,Vidu 的每個畫面都處理得恰到好處。
Vidu
Sora
在走路鏡頭的模擬上,Sora 和 Vidu 算得上棋逢對手。
視頻中的人物走起路來自信淡然,特別是周圍環(huán)境的渲染,如霓虹燈在潮濕街面水漬上的倒影,簡直是加分項,讓畫面的逼真程度直線上升。
Vidu
Sora
Vidu 不僅能生成人物,還能生成走路的熊,人物一致性讓人眼前一亮。
當涉及到動作協(xié)調(diào)性時,Sora 的表現(xiàn)要更勝一籌。Vidu 則自帶 AI 的「頓挫感」,走路姿勢略顯僵硬,還需要「多加練習」。
多復雜鏡頭、多景別的切換是 Sora 拉開其他視頻生成模型的一大殺招。
Vidu 在這方面也不甘示弱,盡管電視機畫面的細節(jié)處理還有提升空間,但流暢的鏡頭轉換猶如真人導演的精心編排。
畫室里的一艘船隨著海浪搖擺,木頭玩具船在地毯上航行,Vidu 不僅腦洞大開,畫面效果更是令人贊嘆。
在理解中國文化元素上,Sora 生成的國外唐人街舞龍環(huán)節(jié),畫面細節(jié)豐富,整體文化氛圍是拉滿的。
Vidu 生成的「龍」更靠近西方世界的龍形象,在中國宮殿的建筑環(huán)境里稍微有些格格不入。
不過熊貓在湖畔彈吉他的畫面,倒有些「忽聞江上弄哀箏」的意境。
Vidu
Sora
戴珍珠耳環(huán)的橙貓、優(yōu)雅眼神殺、緩慢抬頭、陶藝 DIY,視覺效果簡直爆棚,讓人分不清是現(xiàn)實還是電影場景。
Vidu 是清華大學聯(lián)合大模型創(chuàng)業(yè)公司生數(shù)科技,用兩個半月交出的一份新答卷。
Vidu,we do, we did, we do together!感謝小伙伴們?nèi)找岳^夜的堅持,在實驗室原創(chuàng)架構上開花結果。
據(jù)證券時報消息, Vidu 發(fā)布后,清華大學 AI 研究院副院長、生數(shù)科技首席科學家朱軍在朋友圈寫下了上面這段話。
生數(shù)科技官方介紹稱, Vidu 模型之所以取得快速突破,源自于該團隊在貝葉斯機器學習和多模態(tài)大模型的長期積累和多項原創(chuàng)性成果。
早在 2022 年 9 月,出于對標當時剛剛開源的 Stable Diffusion, 清華團隊提交了一篇名為《All are Worth Words: A ViT Backbone for Diffusion Models》的論文,里面提出了全球首個 Diffusion 與 Transformer 融合的架構,比 Sora 采用的 DiT 架構還要再早兩個月。
到了去年 3 月,團隊開源了全球首個基于 U-ViT 融合架構的多模態(tài)擴散模型 UniDiffuser,率先完成了 U-ViT 架構的大規(guī)??蓴U展性驗證,一舉實現(xiàn)了從簡單的文生圖擴展到圖生文、圖文改寫等多種功能。
朱軍曾透露,之所以選擇先做圖文任務,而不是視頻生成,完全是基于算力的考慮和對技術成熟度的預判,但在圖文領域的技術積累,也為后續(xù)長視頻的爆發(fā)積攢了不少的經(jīng)驗。
生數(shù)科技官方介紹,正是基于對 U-ViT 架構的深入理解以及長期積累的工程與數(shù)據(jù)經(jīng)驗,團隊才能在短短兩個月里進一步突破了長視頻表示與處理的多項關鍵技術,成功研發(fā)出 Vidu 視頻大模型。
3 月份的 Vidu 還只能生成 8 秒的視頻,包括當時生數(shù)科技聯(lián)創(chuàng)兼 CEO 唐家渝在媒體溝通會上表示,今年內(nèi)一定能達到 Sora 目前版本的效果,但很難說是三個月還是半年。
如今,短短一個月過去,Vidu 再次在技術上迎來突破,不僅畫面效果逼近 Sora 的水準,視頻生成的時長也擴展到了 16 秒。
正如那句老話,起跑領先只是一時之快,大模型之戰(zhàn)笑到最后才是贏家。
前不久,我們提到 OpenAI 和藝術家合作發(fā)布的七部專業(yè)級短片在影視界一石激起千層浪,讓不少電影人感嘆飯碗不保。
然而,與 Sora 合作的加拿大制作公司 Shy Kids 透露了 Sora 一些實際的內(nèi)幕:從 Sora 生成的素材到最終成品之間的差距,不亞于「買家秀」和「買家秀」的區(qū)別。
具體來說,生成的原始素材與最終使用素材的比例高達 300:1.也就是說,為得到一秒的有效畫面,制作團隊需要并審查長達 300 秒的原始素材,對篩選和判斷能力提出極高的要求。
這就好比,我們用 AI 來簡化任務,卻忘了先要教會 AI 怎么簡化。
從原始素材的打磨到最終成品的誕生,還需要如同傳統(tǒng)影視工作流一般,經(jīng)過大量后期處理工作,以至于 Sora 的制作流程更適合于「先打槍后畫靶子」——根據(jù)生成的素材「改劇本」,而不是按照劇本生成畫面。
電影藝術的魅力,很大程度源自于導演對鏡頭語言的精妙運用。推拉搖移升降跟往往構成電影視覺敘事的骨架。
OpenAI 的研究人員最初在開發(fā) Sora 的過程中,更多地將注意力集中在圖像生成的技術層面,卻沒有考慮到創(chuàng)作者在實際應用中對鏡頭語言的需求。
Sora 這些「尚未成神」的狀態(tài),為其他競爭者,尤其是國內(nèi)的研發(fā)團隊提供了迎頭趕上寶貴的時間窗口。一大批有望對標甚至超越 Sora 的大模型也正在涌現(xiàn)。
上個月,北大-兔展 AIGC 聯(lián)合實驗室發(fā)起了一項 Sora 的開源復現(xiàn)計劃。現(xiàn)在 Open-Sora 已經(jīng)支持單鏡頭生成長達 16 秒的視頻生成,分辨率最高可達 720P。
并且該團隊還聲稱支持任何寬高比,不同分辨率和時長的文本到圖像、文本到視頻、圖像到視頻、視頻到視頻和無限長視頻的生成需求。
與此同時,在 AI 視頻生成技術的賽道上,騰訊的 VideoCrafter2、Morph Studio、NeverEnds 也都是國內(nèi)發(fā)布類 Sora 產(chǎn)品的佼佼者。
Vidu 是國內(nèi)第一個有希望追趕 Sora 的視頻生成大模型,但也不會是唯一一個迎頭趕上的大模型。