一个人看www在线视频,一本久久a久久精品综合,一区二区三区在线

亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

首頁 > 資訊 > 文章

2024-06-20 16:01

音效師狂喜！谷歌DeepMind發(fā)布首個(gè)AI視頻全自動(dòng)配音工具V2A：一個(gè)人輕松干完后期的活

谷歌發(fā)布新一代AI視頻自動(dòng)配音工具，AI視頻開啟「有聲時(shí)代」！?

6月17日，谷歌人工智能團(tuán)隊(duì)DeepMind發(fā)布了一個(gè)名為V2A（Video-to-Audio）的AI架構(gòu)系統(tǒng)，顧名思義即“視頻轉(zhuǎn)音頻”，能根據(jù)畫面內(nèi)容或者手動(dòng)輸入的提示詞直接為視頻配音。

該模型最大的功能在于，可為任何視頻自動(dòng)創(chuàng)建合適的音軌BGM，在實(shí)踐中取得了十分有效的進(jìn)展，可以大大降低視頻配音的制作成本。

當(dāng)前Sora、Pika、可靈以及Runway等視頻模型已經(jīng)能輸出逼真的短片，但它們均輸出的是默片。

谷歌V2A系統(tǒng)的特點(diǎn)，便是V2A能依靠自身的多模態(tài)視覺能力理解視頻當(dāng)中的信息。V2A能看懂畫面，知道畫面里正在發(fā)生什么，應(yīng)該出現(xiàn)什么聲音。

?舉個(gè)例子，比如輸入一則主題為「在黑暗中行走」的無聲視頻，添加“電影、恐怖片、音樂、緊張、混凝土上的腳步聲”等文本提示后，AI模型就能根據(jù)提示詞生成恐怖片風(fēng)格的背景音效，十分逼真。

腳步聲基本吻合人物走動(dòng)的節(jié)奏，隨著畫面的切換，腳步聲也隨之消失，毛骨悚然的緊張感拉滿。

為了能夠貼近Sora熱點(diǎn)，谷歌V2A的開發(fā)團(tuán)隊(duì)使用了不少Sora生成的視頻片段作為輸入范例。

比如上邊這段Sora生成的水母漂蕩影像，營造出了負(fù)壓十足的深海水壓感。

下方這則短片也是Sora的樣片，經(jīng)由V2A生成的音樂配樂后的視頻頗有西部大片的感覺。

當(dāng)然也不是每一次生成的配音都是完美的，比如架子鼓的敲擊，這種復(fù)雜的音頻場景就會(huì)發(fā)生音畫不同步的情況。

除了純粹的配音外，谷歌V2A給了創(chuàng)作者很大的自由度。

影片創(chuàng)作者可以根據(jù)可以通過明確的“正面”提示詞，引導(dǎo)模型輸出所需的聲音，或者輸入“負(fù)面”提示詞，以規(guī)避不想出現(xiàn)的音效。讓用戶可以創(chuàng)作不同的音畫匹配。

讓我們看下面這個(gè)Sora樣片的配音效果，提供了兩種截然不同的畫面情緒氛圍：

【視頻①】營造星際穿越的孤獨(dú)感

【視頻②】營造星際穿越的史詩感

只需簡單調(diào)整提示詞，谷歌V2A就能迅速給創(chuàng)作者提供風(fēng)格迥異的音頻。

當(dāng)然，V2A還允許用戶通過輸入“正面提示詞”來引導(dǎo)模型輸出所需的聲音，或輸入“負(fù)面提示詞”來引導(dǎo)其避免出現(xiàn)不需要的聲音，這給了創(chuàng)作者更大的控制力。

與其他普通的AI音頻生成工具不同，V2A輸出的視頻是配音完畢的完整片段，無需人工對齊音頻與視頻，可實(shí)現(xiàn)音畫自動(dòng)對齊。

V2A配音案例——?狼吼

V2A配音案例——?電吉他

谷歌DeepMind也承認(rèn)，該AI系統(tǒng)目前仍然存在較大的局限性。如果輸入的視頻質(zhì)量不高，或者無法吻合預(yù)訓(xùn)練的視頻類型，那么輸出的音頻質(zhì)量也會(huì)出現(xiàn)明顯的下降。

因此，谷歌目前正在改善安全性并補(bǔ)齊當(dāng)前V2A在人物對口型方面的短板，才會(huì)正式向公眾發(fā)布這一AI配音工具。

這套AI配音系統(tǒng)是如何工作的呢？

谷歌DeepMind的研究人員稱，V2A系統(tǒng)首先會(huì)將視頻進(jìn)行壓縮，然后借助擴(kuò)散模型從中隨機(jī)抽取噪聲以提煉和學(xué)習(xí)音畫對應(yīng)的音頻信息。

該過程經(jīng)由視覺輸入和自然語言提示作為引導(dǎo)，以匹配提示詞生成對應(yīng)的音頻。最后，音頻輸出并解碼，轉(zhuǎn)為一般音頻文件并與視頻數(shù)據(jù)組合對齊。

為了能引導(dǎo)生成更高質(zhì)量的音頻，谷歌DeepMind的研究人員在訓(xùn)練過程中添加了許多人工標(biāo)注的信息。V2A系統(tǒng)漸漸學(xué)會(huì)了將特定的音頻事件與各種視覺場景相關(guān)聯(lián)，并且將提示詞中提供的信息與之匹配。

需要注意到是，谷歌目前并不打算向公眾開放V2A系統(tǒng)，還需要許多準(zhǔn)備工作。

考慮到Fake News（假新聞）粗制濫造的可能，谷歌DeepMind強(qiáng)調(diào)，他們會(huì)考慮在V2A系統(tǒng)AI生成的內(nèi)容添加元數(shù)據(jù)水印，防止外界濫用該技術(shù)。

從文生圖到文生視頻，到音畫同步，谷歌V2A系統(tǒng)的發(fā)布將給影視內(nèi)容創(chuàng)作的生態(tài)帶來巨大的改變，尤其是在后期剪輯與動(dòng)畫制作方面。

相信今年將是AI視頻爆發(fā)的元年。

項(xiàng)目主頁：https://deepmind.google/discover/blog/generating-audio-for-video/

查看相關(guān)話題： #谷歌 #AI音頻生成 #AI音樂 #AI視頻

相關(guān)文章

雷小軍

工作人員

AI奇點(diǎn)網(wǎng)打雜的

作者已發(fā)布 625 篇文章

近期文章

開源鴻蒙技術(shù)大會(huì)2025丨AI軟件工程分論壇：智能創(chuàng)新，賦能開源鴻蒙軟件工程

神州問學(xué)產(chǎn)品重大發(fā)布——賦能企業(yè)知識(shí)治理，全員感知效率提升

品牌＆產(chǎn)品雙升級！神州鯤泰發(fā)布「人工智能+」產(chǎn)品矩陣，以全棧AI基礎(chǔ)設(shè)施奔赴行業(yè)智能化

全球市值第一！英偉達(dá)3.3萬億美元登AI王座超微軟，老黃卻直言憂心忡忡

Anthropic發(fā)布新一代Claude 3.5 Sonnet丨微信輸入法V1.2版提供AI問答丨北京首例「AI換臉軟件」侵權(quán)案宣判