音效師狂喜!谷歌DeepMind發(fā)布首個(gè)AI視頻全自動(dòng)配音工具V2A:一個(gè)人輕松干完后期的活
谷歌發(fā)布新一代AI視頻自動(dòng)配音工具,AI視頻開啟「有聲時(shí)代」!?
6月17日,谷歌人工智能團(tuán)隊(duì)DeepMind發(fā)布了一個(gè)名為V2A(Video-to-Audio)的AI架構(gòu)系統(tǒng),顧名思義即“視頻轉(zhuǎn)音頻”,能根據(jù)畫面內(nèi)容或者手動(dòng)輸入的提示詞直接為視頻配音。
該模型最大的功能在于,可為任何視頻自動(dòng)創(chuàng)建合適的音軌BGM,在實(shí)踐中取得了十分有效的進(jìn)展,可以大大降低視頻配音的制作成本。
當(dāng)前Sora、Pika、可靈以及Runway等視頻模型已經(jīng)能輸出逼真的短片,但它們均輸出的是默片。
谷歌V2A系統(tǒng)的特點(diǎn),便是V2A能依靠自身的多模態(tài)視覺能力理解視頻當(dāng)中的信息。V2A能看懂畫面,知道畫面里正在發(fā)生什么,應(yīng)該出現(xiàn)什么聲音。
?舉個(gè)例子,比如輸入一則主題為「在黑暗中行走」的無聲視頻,添加“電影、恐怖片、音樂、緊張、混凝土上的腳步聲”等文本提示后,AI模型就能根據(jù)提示詞生成恐怖片風(fēng)格的背景音效,十分逼真。
腳步聲基本吻合人物走動(dòng)的節(jié)奏,隨著畫面的切換,腳步聲也隨之消失,毛骨悚然的緊張感拉滿。
為了能夠貼近Sora熱點(diǎn),谷歌V2A的開發(fā)團(tuán)隊(duì)使用了不少Sora生成的視頻片段作為輸入范例。
比如上邊這段Sora生成的水母漂蕩影像,營造出了負(fù)壓十足的深海水壓感。
下方這則短片也是Sora的樣片,經(jīng)由V2A生成的音樂配樂后的視頻頗有西部大片的感覺。
當(dāng)然也不是每一次生成的配音都是完美的,比如架子鼓的敲擊,這種復(fù)雜的音頻場景就會(huì)發(fā)生音畫不同步的情況。
除了純粹的配音外,谷歌V2A給了創(chuàng)作者很大的自由度。
影片創(chuàng)作者可以根據(jù)可以通過明確的“正面”提示詞,引導(dǎo)模型輸出所需的聲音,或者輸入“負(fù)面”提示詞,以規(guī)避不想出現(xiàn)的音效。讓用戶可以創(chuàng)作不同的音畫匹配。
讓我們看下面這個(gè)Sora樣片的配音效果,提供了兩種截然不同的畫面情緒氛圍:
【視頻①】營造星際穿越的孤獨(dú)感
【視頻②】營造星際穿越的史詩感
只需簡單調(diào)整提示詞,谷歌V2A就能迅速給創(chuàng)作者提供風(fēng)格迥異的音頻。
當(dāng)然,V2A還允許用戶通過輸入“正面提示詞”來引導(dǎo)模型輸出所需的聲音,或輸入“負(fù)面提示詞”來引導(dǎo)其避免出現(xiàn)不需要的聲音,這給了創(chuàng)作者更大的控制力。
與其他普通的AI音頻生成工具不同,V2A輸出的視頻是配音完畢的完整片段,無需人工對齊音頻與視頻,可實(shí)現(xiàn)音畫自動(dòng)對齊。
V2A配音案例——?狼吼
V2A配音案例——?電吉他
谷歌DeepMind也承認(rèn),該AI系統(tǒng)目前仍然存在較大的局限性。如果輸入的視頻質(zhì)量不高,或者無法吻合預(yù)訓(xùn)練的視頻類型,那么輸出的音頻質(zhì)量也會(huì)出現(xiàn)明顯的下降。
因此,谷歌目前正在改善安全性并補(bǔ)齊當(dāng)前V2A在人物對口型方面的短板,才會(huì)正式向公眾發(fā)布這一AI配音工具。
這套AI配音系統(tǒng)是如何工作的呢?
谷歌DeepMind的研究人員稱,V2A系統(tǒng)首先會(huì)將視頻進(jìn)行壓縮,然后借助擴(kuò)散模型從中隨機(jī)抽取噪聲以提煉和學(xué)習(xí)音畫對應(yīng)的音頻信息。
該過程經(jīng)由視覺輸入和自然語言提示作為引導(dǎo),以匹配提示詞生成對應(yīng)的音頻。最后,音頻輸出并解碼,轉(zhuǎn)為一般音頻文件并與視頻數(shù)據(jù)組合對齊。
為了能引導(dǎo)生成更高質(zhì)量的音頻,谷歌DeepMind的研究人員在訓(xùn)練過程中添加了許多人工標(biāo)注的信息。V2A系統(tǒng)漸漸學(xué)會(huì)了將特定的音頻事件與各種視覺場景相關(guān)聯(lián),并且將提示詞中提供的信息與之匹配。
需要注意到是,谷歌目前并不打算向公眾開放V2A系統(tǒng),還需要許多準(zhǔn)備工作。
考慮到Fake News(假新聞)粗制濫造的可能,谷歌DeepMind強(qiáng)調(diào),他們會(huì)考慮在V2A系統(tǒng)AI生成的內(nèi)容添加元數(shù)據(jù)水印,防止外界濫用該技術(shù)。
從文生圖到文生視頻,到音畫同步,谷歌V2A系統(tǒng)的發(fā)布將給影視內(nèi)容創(chuàng)作的生態(tài)帶來巨大的改變,尤其是在后期剪輯與動(dòng)畫制作方面。
相信今年將是AI視頻爆發(fā)的元年。
項(xiàng)目主頁:https://deepmind.google/discover/blog/generating-audio-for-video/