一个人看的www免费高清中文字幕,一个人看的www免费,在线新版天堂资源中文www

亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

首頁 > 資訊 > 文章

2024-02-04 09:26

字節(jié)跳動(dòng)推出超高清文生視頻模型，效果比Gen-2更強(qiáng)！

字節(jié)跳動(dòng)的研究人員開發(fā)了一種超高清文生視頻模型MagicVideo-V2.

MagicVideo-V2公布的實(shí)驗(yàn)評(píng)測(cè)數(shù)據(jù)顯示，視頻的高清度、潤(rùn)滑度、連貫性、文本語義還原等方面，比目前主流的文生視頻模型Gen-2、Stable Video Diffusion、Pika 1.0等更出色。

這是因?yàn)?，MagicVideo-V2將文生圖像、圖像生成視頻、視頻到視頻和視頻幀插值4種功能整合到一個(gè)模型中，解決了之前面臨的4大難題。

論文地址：https://arxiv.org/abs/2401.04468

項(xiàng)目地址：https://magicvideov2.github.io/

隨著Gen-2等模型的出現(xiàn)，文生視頻領(lǐng)域?qū)崿F(xiàn)飛速發(fā)展，尤其是在這個(gè)短視頻時(shí)代被大量用戶應(yīng)用。但是在生成的過程中，模型經(jīng)常面臨4個(gè)難題。

一個(gè)女巫正在制作藥品

視頻不美觀，由于多數(shù)是采用公開訓(xùn)練數(shù)據(jù)，生成的視頻經(jīng)常會(huì)出現(xiàn)劣質(zhì)的情況;內(nèi)容不一致，在生成視頻的過程中，無法精準(zhǔn)還原文本提示的內(nèi)容;

視覺質(zhì)量和清晰度較差：如何將用戶的文本提示，轉(zhuǎn)化為高清、精準(zhǔn)高質(zhì)量視頻很難;

視頻運(yùn)動(dòng)不連貫，多數(shù)模型無法在生成的關(guān)鍵幀之間，插入額外的幀，使視頻的運(yùn)動(dòng)更加自然和連貫性。

所以，字節(jié)跳動(dòng)的研究人員直接將4個(gè)模塊整合在MagicVideo-V2模型中，一一解決了這些難題。

文生圖像

文生圖像模塊(Text-to-Image, T2I)主要用于接收用戶提供的文本描述作為輸入，并生成一個(gè)1024×1024像素的圖像作為視頻生成的參考圖像。這有助于增強(qiáng)視頻的內(nèi)容和美學(xué)風(fēng)格。

T2I模型采用基于擴(kuò)散的生成模型，通過多個(gè)迭代步驟逐漸生成高質(zhì)量的圖像，同時(shí)可以學(xué)習(xí)到從文本描述到圖像的映射關(guān)系，從而生成與文本描述相符的精美圖像。

圖像到視頻

該模塊基于SD1.5模型，通過人類反饋來提高模型在視覺質(zhì)量和內(nèi)容一致性方面的能力。圖像到視頻模塊還使用了一個(gè)參考圖像嵌入模塊，用于利用參考圖像。

具體來說，研究人員使用了一種外觀編碼器來提取參考圖像的嵌入，并通過交叉注意機(jī)制將其注入到圖像到視頻模塊中。

這樣，圖像提示可以有效地與文本提示解耦，并提供更強(qiáng)的圖像條件。此外，使用了潛在噪聲先驗(yàn)策略，通過在起始噪聲潛變量中引入適當(dāng)?shù)脑肼曄闰?yàn)技巧，保留部分圖像布局，改善幀之間的時(shí)間連貫性。

視頻到視頻

該模塊進(jìn)一步對(duì)低分辨率視頻的關(guān)鍵幀進(jìn)行優(yōu)化和超分辨率處理，以生成高分辨率的視頻。

簡(jiǎn)單來說，就像照相機(jī)的美顏功能,會(huì)根據(jù)圖像內(nèi)容自動(dòng)生成更豐富的像素級(jí)細(xì)節(jié),增強(qiáng)整體逼真度與紋理細(xì)節(jié)。

這也是比其他文生視頻模型更高清的重要原因之一。

視頻幀插值

該模塊可以在生成的視頻關(guān)鍵幀之間插入額外的幀，增加視頻的平滑性、動(dòng)態(tài)感以及連貫性。

主要通過分析相鄰關(guān)鍵幀之間的運(yùn)動(dòng)信息，以及參考圖像和文本描述，插入中間幀，使視頻的運(yùn)動(dòng)更加連續(xù)和自然。

測(cè)試數(shù)據(jù)

為了評(píng)估 MagicVideo-V2的性能，研究人員使用了人類評(píng)估和目前最先進(jìn)的 T2V 系統(tǒng)兩種評(píng)估方法。

分別由61位評(píng)估者組成的小組對(duì) MagicVideo-V2 和另一種 T2V 方法進(jìn)行了 500 次并排比較。

在每一輪比較中，每位投票者都會(huì)看到一對(duì)隨機(jī)的視頻，包括基于相同文本提示的一個(gè)我們的視頻和一個(gè)競(jìng)爭(zhēng)對(duì)手的視頻。他們會(huì)看到三個(gè)評(píng)估選項(xiàng)--"好"、"一樣 "或 "壞"--分別表示偏好 MagicVideo-V2、無偏好或偏好競(jìng)爭(zhēng)的 T2V 方法。