亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

首頁  >  資訊  >  文章
2024-06-20 16:01

音效師狂喜!谷歌DeepMind發(fā)布首個(gè)AI視頻全自動(dòng)配音工具V2A:一個(gè)人輕松干完后期的活

圖片

谷歌發(fā)布新一代AI視頻自動(dòng)配音工具,AI視頻開啟「有聲時(shí)代」!?

6月17日,谷歌人工智能團(tuán)隊(duì)DeepMind發(fā)布了一個(gè)名為V2A(Video-to-Audio)的AI架構(gòu)系統(tǒng),顧名思義即“視頻轉(zhuǎn)音頻”,能根據(jù)畫面內(nèi)容或者手動(dòng)輸入的提示詞直接為視頻配音。

該模型最大的功能在于,可為任何視頻自動(dòng)創(chuàng)建合適的音軌BGM,在實(shí)踐中取得了十分有效的進(jìn)展,可以大大降低視頻配音的制作成本。

當(dāng)前Sora、Pika、可靈以及Runway等視頻模型已經(jīng)能輸出逼真的短片,但它們均輸出的是默片。

谷歌V2A系統(tǒng)的特點(diǎn),便是V2A能依靠自身的多模態(tài)視覺能力理解視頻當(dāng)中的信息。V2A能看懂畫面,知道畫面里正在發(fā)生什么,應(yīng)該出現(xiàn)什么聲音。

?舉個(gè)例子,比如輸入一則主題為「在黑暗中行走」的無聲視頻,添加“電影、恐怖片、音樂、緊張、混凝土上的腳步聲”等文本提示后,AI模型就能根據(jù)提示詞生成恐怖片風(fēng)格的背景音效,十分逼真。

腳步聲基本吻合人物走動(dòng)的節(jié)奏,隨著畫面的切換,腳步聲也隨之消失,毛骨悚然的緊張感拉滿。

為了能夠貼近Sora熱點(diǎn),谷歌V2A的開發(fā)團(tuán)隊(duì)使用了不少Sora生成的視頻片段作為輸入范例。

比如上邊這段Sora生成的水母漂蕩影像,營造出了負(fù)壓十足的深海水壓感。

下方這則短片也是Sora的樣片,經(jīng)由V2A生成的音樂配樂后的視頻頗有西部大片的感覺。

當(dāng)然也不是每一次生成的配音都是完美的,比如架子鼓的敲擊,這種復(fù)雜的音頻場景就會(huì)發(fā)生音畫不同步的情況。

除了純粹的配音外,谷歌V2A給了創(chuàng)作者很大的自由度。

影片創(chuàng)作者可以根據(jù)可以通過明確的“正面”提示詞,引導(dǎo)模型輸出所需的聲音,或者輸入“負(fù)面”提示詞,以規(guī)避不想出現(xiàn)的音效。讓用戶可以創(chuàng)作不同的音畫匹配。

讓我們看下面這個(gè)Sora樣片的配音效果,提供了兩種截然不同的畫面情緒氛圍:

【視頻①】營造星際穿越的孤獨(dú)感

【視頻②】營造星際穿越的史詩感

只需簡單調(diào)整提示詞,谷歌V2A就能迅速給創(chuàng)作者提供風(fēng)格迥異的音頻。

當(dāng)然,V2A還允許用戶通過輸入“正面提示詞”來引導(dǎo)模型輸出所需的聲音,或輸入“負(fù)面提示詞”來引導(dǎo)其避免出現(xiàn)不需要的聲音,這給了創(chuàng)作者更大的控制力。

與其他普通的AI音頻生成工具不同,V2A輸出的視頻是配音完畢的完整片段,無需人工對齊音頻與視頻,可實(shí)現(xiàn)音畫自動(dòng)對齊。

V2A配音案例——?狼吼

V2A配音案例——?電吉他

谷歌DeepMind也承認(rèn),該AI系統(tǒng)目前仍然存在較大的局限性。如果輸入的視頻質(zhì)量不高,或者無法吻合預(yù)訓(xùn)練的視頻類型,那么輸出的音頻質(zhì)量也會(huì)出現(xiàn)明顯的下降。

因此,谷歌目前正在改善安全性并補(bǔ)齊當(dāng)前V2A在人物對口型方面的短板,才會(huì)正式向公眾發(fā)布這一AI配音工具。

這套AI配音系統(tǒng)是如何工作的呢?

谷歌DeepMind的研究人員稱,V2A系統(tǒng)首先會(huì)將視頻進(jìn)行壓縮,然后借助擴(kuò)散模型從中隨機(jī)抽取噪聲以提煉和學(xué)習(xí)音畫對應(yīng)的音頻信息。

圖片

該過程經(jīng)由視覺輸入和自然語言提示作為引導(dǎo),以匹配提示詞生成對應(yīng)的音頻。最后,音頻輸出并解碼,轉(zhuǎn)為一般音頻文件并與視頻數(shù)據(jù)組合對齊。

圖片

為了能引導(dǎo)生成更高質(zhì)量的音頻,谷歌DeepMind的研究人員在訓(xùn)練過程中添加了許多人工標(biāo)注的信息。V2A系統(tǒng)漸漸學(xué)會(huì)了將特定的音頻事件與各種視覺場景相關(guān)聯(lián),并且將提示詞中提供的信息與之匹配。

需要注意到是,谷歌目前并不打算向公眾開放V2A系統(tǒng),還需要許多準(zhǔn)備工作。

圖片

考慮到Fake News(假新聞)粗制濫造的可能,谷歌DeepMind強(qiáng)調(diào),他們會(huì)考慮在V2A系統(tǒng)AI生成的內(nèi)容添加元數(shù)據(jù)水印,防止外界濫用該技術(shù)。

從文生圖到文生視頻,到音畫同步,谷歌V2A系統(tǒng)的發(fā)布將給影視內(nèi)容創(chuàng)作的生態(tài)帶來巨大的改變,尤其是在后期剪輯與動(dòng)畫制作方面。

相信今年將是AI視頻爆發(fā)的元年。

項(xiàng)目主頁:https://deepmind.google/discover/blog/generating-audio-for-video/

4
查看相關(guān)話題: #谷歌 #AI音頻生成 #AI音樂 #AI視頻

相關(guān)文章