亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

首頁(yè)  >  測(cè)評(píng)  >  文章
2024-06-07 09:35

快手版Sora「可靈」開(kāi)放測(cè)試:生成超120s視頻,更懂物理,復(fù)雜運(yùn)動(dòng)也能精準(zhǔn)建模

什么?瘋狂動(dòng)物城被國(guó)產(chǎn)AI搬進(jìn)現(xiàn)實(shí)了?

可靈AI

與視頻一同曝光的,是一款名為「可靈」全新國(guó)產(chǎn)視頻生成大模型。

它采用了Sora相似的技術(shù)路線,結(jié)合多項(xiàng)自研技術(shù)創(chuàng)新,生成的視頻不僅運(yùn)動(dòng)幅度大且合理,還能模擬物理世界特性,具備強(qiáng)大的概念組合能力和想象力。

數(shù)據(jù)上看,可靈支持生成長(zhǎng)達(dá)2分鐘的30fps的超長(zhǎng)視頻,分辨率高達(dá)1080p,且支持多種寬高比。

另外再劃個(gè)重點(diǎn),可靈不是實(shí)驗(yàn)室放出的Demo或者視頻結(jié)果演示,而是短視頻領(lǐng)域頭部玩家快手推出的產(chǎn)品級(jí)應(yīng)用。

而且主打一個(gè)務(wù)實(shí),不開(kāi)空頭支票、發(fā)布即上線,可靈大模型已在快影APP中正式開(kāi)啟邀測(cè)。

話不多說(shuō),接下來(lái)就帶大家欣賞一下可靈的大作~

更懂世界規(guī)律,復(fù)雜運(yùn)動(dòng)也能準(zhǔn)確刻畫(huà)

相信通過(guò)開(kāi)頭的視頻,大家已經(jīng)感受到了可靈豐富的想象力。

可靈不但在想象上天馬行空,在描繪運(yùn)動(dòng)時(shí)又能做到符合真實(shí)的運(yùn)動(dòng)規(guī)律,復(fù)雜、大幅度的時(shí)空運(yùn)動(dòng)也能準(zhǔn)確刻畫(huà)。

比如這個(gè)在公路上高速奔跑的老虎,不僅畫(huà)面連貫,隨鏡頭角度的變化合理,老虎四肢的動(dòng)作協(xié)調(diào),而且還把奔跑過(guò)程中軀干部分的抖動(dòng)也展現(xiàn)得淋漓盡致。

圖片

還有宇航員在月球上奔跑的畫(huà)面,動(dòng)作流暢,步態(tài)和影子的運(yùn)動(dòng)合理恰當(dāng),太絕了。

圖片

除了運(yùn)動(dòng),可靈大模型還能模擬真實(shí)物理世界特性,生成的視頻更符合物理規(guī)律。

在這段倒牛奶的視頻中,力學(xué)方面的重力規(guī)律、液面的上升都符合現(xiàn)實(shí),連倒液體時(shí)泡沫一直在最上層的特性也考慮到了:

圖片

還有光學(xué)上的反射規(guī)律也考慮到了,注意看這只彈鋼琴的貓貓,光滑表面上影子里的貓爪和琴鍵,都在隨著本體同步變化。

圖片

另外,與真實(shí)物理世界的交互,也能被真實(shí)反映——下面視頻中小男孩吃漢堡的生成視頻中,一口咬下去,齒印一直都在,小男孩享受吃漢堡的享受過(guò)程宛如就在眼前。

圖片

要知道,符合物理規(guī)律對(duì)于大模型來(lái)說(shuō)還是相當(dāng)困難的事,連Sora也不能完全做好。

比如同樣是吃漢堡這個(gè)場(chǎng)景,Sora生成的視頻不僅有人手只有三根手指這樣的槽點(diǎn),咬合位置與漢堡上的咬痕也并不匹配……

圖片

不僅僅是真實(shí)世界中的物理規(guī)律和運(yùn)動(dòng),對(duì)于想象力的場(chǎng)景,可靈也是信手拈來(lái)。

比如這只戴著眼鏡的兔子邊喝咖啡,邊看報(bào)紙,悠閑自得。

圖片

同時(shí),可靈對(duì)細(xì)節(jié)的刻畫(huà)也很到位,比如兩朵緩慢綻放的花,可以看到花瓣和花蕊的細(xì)節(jié)。

圖片

而且,可靈不僅生成的視頻更加真實(shí),生成的視頻分辨率高達(dá)1080p,時(shí)長(zhǎng)高達(dá)2分鐘(幀率30fps),且支持自由的寬高比。

其中也包括豎版視頻,可以說(shuō)是和快手的短視頻生態(tài)相當(dāng)匹配了。

畫(huà)面中,一列火車(chē)向前方行駛,窗外的風(fēng)景走過(guò)了春夏秋冬四季,整個(gè)兩分多鐘的畫(huà)面都十分連貫。

到這里,相信效果展示得已經(jīng)夠多了,如果還意猶未盡的話,可以前往可靈官網(wǎng)平臺(tái)(傳送門(mén)見(jiàn)文末),看更多神奇的AI視頻吧!

(注:本文中的視頻有壓縮,高清及最新效果以官方網(wǎng)頁(yè)為準(zhǔn))

那么在可靈的這些視頻背后,都運(yùn)用了哪些獨(dú)特的技術(shù)呢?

原生的視頻生成技術(shù)路線

整體上,可靈大模型的采用了原生的文生視頻技術(shù)路線,替代了圖像生成+時(shí)序模塊的組合,這也是可靈生成時(shí)間長(zhǎng)、幀率高,能準(zhǔn)確處理復(fù)雜運(yùn)動(dòng)的核心奧義。

具體來(lái)看,快手大模型團(tuán)隊(duì)認(rèn)為,一個(gè)優(yōu)秀的視頻生成模型,需要考慮四大核心要素——模型設(shè)計(jì)、數(shù)據(jù)保障、計(jì)算效率,以及模型能力的擴(kuò)展。

類(lèi)Sora模型架構(gòu),scaling law得到驗(yàn)證

先從模型的設(shè)計(jì)說(shuō)起,這當(dāng)中主要應(yīng)當(dāng)考慮兩方面的因素,一是足夠強(qiáng)的擬合能力,二是足夠多的參數(shù)容量。

架構(gòu)的選擇方面,可靈整體框架采用了類(lèi)Sora的DiT結(jié)構(gòu),用Transformer代替了傳統(tǒng)擴(kuò)散模型中基于卷積網(wǎng)絡(luò)的U-Net。

Transformer的處理能力和生成能力更強(qiáng)大,擴(kuò)展能力更強(qiáng)、收斂效率更好,解決了U-Net在處理復(fù)雜任務(wù)時(shí)冗余過(guò)大、感受野和定位精度不可兼得的局限。

在此基礎(chǔ)之上,快手大模型團(tuán)隊(duì)還對(duì)模型中的隱空間編/解碼、時(shí)序建模等模塊進(jìn)行了升維。

目前,在隱空間編/解碼上,主流的視頻生成模型通常沿用Stable Diffusion的2D VAE進(jìn)行空間壓縮,但這對(duì)于視頻而言存在明顯的信息冗余。

因此,快手大模型團(tuán)隊(duì)自研了3D VAE網(wǎng)絡(luò),實(shí)現(xiàn)時(shí)空同步壓縮,獲得了較高的重建質(zhì)量,在訓(xùn)練性能和效果取得了最佳平衡。

另外在時(shí)序信息建模上,快手大模型團(tuán)隊(duì)設(shè)計(jì)了一款計(jì)算高效的全注意力機(jī)制(3D Attention)作為時(shí)空建模模塊。

該方法可以更準(zhǔn)確地建模復(fù)雜時(shí)空運(yùn)動(dòng),同時(shí)還能兼顧具運(yùn)算成本,有效提升了模型的建模能力。

當(dāng)然,除了模型自身的能力,用戶輸入的文本提示詞也對(duì)最終生成的效果有著重要影響。

為此,團(tuán)隊(duì)專(zhuān)門(mén)設(shè)計(jì)了專(zhuān)用的語(yǔ)言模型,可以對(duì)用戶輸入的提示詞進(jìn)行高質(zhì)量擴(kuò)充及優(yōu)化。

數(shù)據(jù)如何構(gòu)建?自建高質(zhì)量數(shù)據(jù)篩選方案

說(shuō)完了模型的設(shè)計(jì),數(shù)據(jù)對(duì)于模型的表現(xiàn)同樣至關(guān)重要。

事實(shí)上,訓(xùn)練數(shù)據(jù)的規(guī)模和質(zhì)量不足,也正是許多視頻生成模型研發(fā)者所面臨的棘手問(wèn)題。

網(wǎng)上視頻普遍質(zhì)量低、難以滿足訓(xùn)練需求??焓执竽P蛨F(tuán)隊(duì)構(gòu)建了較為完備的標(biāo)簽體系,可以精細(xì)化的篩選訓(xùn)練數(shù)據(jù),或?qū)τ?xùn)練數(shù)據(jù)的分布進(jìn)行調(diào)整。

該體系從視頻基礎(chǔ)質(zhì)量、美學(xué)、自然度等多個(gè)維度對(duì)視頻數(shù)據(jù)質(zhì)量進(jìn)行刻畫(huà),并針對(duì)每一個(gè)維度設(shè)計(jì)多種定制化的標(biāo)簽特征。

在訓(xùn)練視頻生成模型時(shí),需要同時(shí)把視頻及對(duì)應(yīng)文本描述喂給模型。視頻本身質(zhì)量也有了保證,其對(duì)應(yīng)文本描述,應(yīng)該如何獲得?

開(kāi)發(fā)團(tuán)隊(duì)專(zhuān)門(mén)研發(fā)了視頻描述模型,可以生成精確、詳盡、結(jié)構(gòu)化的視頻描述。顯著提升視頻生成模型的文本指令響應(yīng)能力。

縱使模型天賦異稟,亦離不開(kāi)勤學(xué)苦練

模型和數(shù)據(jù)都有了,運(yùn)算效率也要跟得上,如此才能在有限的時(shí)間內(nèi)完成海量規(guī)模數(shù)據(jù)訓(xùn)練,看到顯著的效果。

為了獲得更高的運(yùn)算效率,可靈大模型并沒(méi)有采用當(dāng)前行業(yè)主流的DDPM方案,而是使用了傳輸路徑更短的flow模型作為擴(kuò)散模型基座。

從另一層面上看,算力的不足也是不少AI從業(yè)者面臨的難題,即使像OpenAI這樣的大模型巨頭,所擁有的算力資源同樣緊缺。

這一問(wèn)題在短時(shí)間內(nèi)可能無(wú)法徹底解決,但可以做的是,在總體硬件資源有限的條件下,盡可能地提高算力的運(yùn)用效率。

快手大模型團(tuán)隊(duì)便使用了分布式訓(xùn)練集群,并通過(guò)算子優(yōu)化、重算策略優(yōu)化等手段,大幅提升了可靈大模型的硬件利用率。

在訓(xùn)練過(guò)程當(dāng)中,可靈也沒(méi)有選擇一步到位,而是采取分階段訓(xùn)練策略來(lái)逐步提升分辨率:

在初期的低分辨率階段,主要是以數(shù)量取勝,通過(guò)大量數(shù)據(jù)增強(qiáng)模型對(duì)概念多樣性的理解和建模能力;

在隨后的高分辨率階段,數(shù)據(jù)的質(zhì)量開(kāi)始變成更重要的考量因素,目的是進(jìn)一步提高模型性能,并加強(qiáng)在細(xì)節(jié)上的表現(xiàn)。

采取這樣的策略,有效結(jié)合了量與質(zhì)的優(yōu)勢(shì),確保了模型在訓(xùn)練的各個(gè)階段均能得到優(yōu)化提升。

需求千變?nèi)f化,模型游刃有余

在基礎(chǔ)模型的研發(fā)工作之上,快手大模型團(tuán)隊(duì)也從長(zhǎng)寬比等多個(gè)維度上對(duì)其能力進(jìn)行了擴(kuò)展。

在長(zhǎng)寬比上,可靈同樣沒(méi)有采用主流模型在固定分辨率上進(jìn)行訓(xùn)練的方式。

因?yàn)閭鹘y(tǒng)方法在面對(duì)長(zhǎng)寬比多變的真實(shí)數(shù)據(jù)時(shí),通常會(huì)引入前處理邏輯,破壞了原始數(shù)據(jù)的構(gòu)圖,導(dǎo)致生成結(jié)果構(gòu)圖較差。

相比之下,快手大模型團(tuán)隊(duì)的方案可以使模型直接處理不同長(zhǎng)寬比的數(shù)據(jù),保留原始數(shù)據(jù)的構(gòu)圖。

為了應(yīng)對(duì)未來(lái)數(shù)分鐘甚至更長(zhǎng)的視頻生成需求,團(tuán)隊(duì)也研發(fā)了基于自回歸的視頻時(shí)序拓展方案,且不會(huì)出現(xiàn)明顯的效果退化。

除了文本輸入外,可靈還支持多種控制信息輸入,如相機(jī)運(yùn)鏡、幀率、邊緣/關(guān)鍵點(diǎn)/深度等,為用戶提供了豐富的內(nèi)容控制能力。

不做“畫(huà)餅”大模型,應(yīng)用才是硬道理

大模型行業(yè)“卷”到今天,我們見(jiàn)證了太多技術(shù)的高光時(shí)刻,但技術(shù)突破的初心仍然還是應(yīng)用。

快手可靈視頻生成模型,誕生于短視頻頭部廠商,也持續(xù)面向應(yīng)用在探索。非常值得一提的是,可靈大模型是發(fā)布即上線,不畫(huà)餅!不畫(huà)餅!不畫(huà)餅!

可靈的文生視頻模型,已在快影APP中正式開(kāi)啟邀測(cè),目前開(kāi)放的版本支持720P視頻生成,豎版視頻生成能力也即將開(kāi)放。

圖片

除了文生視頻,快手還基于可靈大模型推出了其他應(yīng)用,如“AI舞王”已在快手和快影APP中上線。

無(wú)論是科目三還是二人轉(zhuǎn),只要上傳一張全身照,都能分分鐘讓人物跟著音樂(lè)優(yōu)雅地跳動(dòng),甚至兵馬俑也能跳起最炫民族風(fēng)。

除了視頻生成模塊,快手大模型團(tuán)隊(duì)還向其中加入了自研3D人臉重建技術(shù),以及背景穩(wěn)定性和重定向模塊,更生動(dòng)地展現(xiàn)表情和運(yùn)動(dòng)效果。

而且,更新一些的“AI唱跳”技術(shù)也迎來(lái)了首發(fā),在跳舞的同時(shí),也能讓人物張嘴唱歌了。

順便再做個(gè)劇透,基于可靈大模型的圖生視頻功能,也將于近期與用戶見(jiàn)面。

實(shí)際上,作為頭部視頻廠商,快手在大模型熱潮之中也動(dòng)作迅速,此前就曾相繼推出語(yǔ)言模型和文生圖模型。

基于這些模型,AI文案、AI生圖,AI生視頻,以及更多AI創(chuàng)作功能,都已相繼在快手和快影APP中上線。

圖片

在視頻生成上,快手也曾與多個(gè)高校或科研機(jī)構(gòu)聯(lián)手,陸續(xù)發(fā)布可控運(yùn)動(dòng)的視頻生成算法Direct-a-Video、多模態(tài)生成算法Video-LaVIT、圖生視頻算法I2V-Adapter、多模態(tài)美學(xué)評(píng)價(jià)模型UNIAA等關(guān)鍵技術(shù),為可靈大模型積累了深厚的技術(shù)沉淀。

現(xiàn)在,快手完整的文生視頻功能終于華麗登場(chǎng),我們期待快手作為一家擁有獨(dú)特場(chǎng)景優(yōu)勢(shì)和廣泛應(yīng)用場(chǎng)景的短視頻賽道巨頭,能夠率先把視頻生成能力在短視頻場(chǎng)景中落地生花。

如果你對(duì)AI視頻創(chuàng)作感興趣,不妨到快影APP中一探究竟。

1
查看相關(guān)話題: #AI視頻 #快手 #Sora #可靈

相關(guān)文章