三只羊盧總的AI合成錄音到底能不能做?我的答案是:當(dāng)然能
今天凌晨,N多人給我發(fā)了一張圖,說警方通報(bào)了,問我到底怎么看三只羊錄音是不是AI這事。
還有朋友跟我說,有個(gè)號(hào)稱「國內(nèi)AI第一人」的,之前信誓旦旦的說這錄音必不可能是AI,AI做不出來。
所以這個(gè)通報(bào)背后,會(huì)不會(huì)背后是有些陰謀論?
我差點(diǎn)都噴了,國內(nèi)AI第一人?我第一反應(yīng)是院士也下場參加這種無聊的事了?
然后查了一下...哦.....算了不提了。
我覺得我有必要科普一下,就是AI到底能不能做到三只羊盧總錄音級(jí)別?
我可以明確的給你一個(gè)回答,是:能。
先簡單說下前情提要。
三只羊跟辛巴有一段亂七八糟的風(fēng)波,反正就是互相掐架,你來我往,好不熱鬧。
然后風(fēng)波正甚時(shí),三只羊董事長盧文慶的一段炸裂的錄音被全網(wǎng)瘋傳。
就是這個(gè)錄音視頻,我做了刪減,其中一些不雅片段我也全部消音處理了。
內(nèi)容炸裂不堪入耳,信量極大且內(nèi)容十分驚人,其中涉及權(quán)斗、出軌等等等,總結(jié)一下就是盧總自爆和三只羊所有女主播有過不正當(dāng)?shù)年P(guān)系。還點(diǎn)名看不起張一鳴。。。
大概就是這么個(gè)事,然后三只羊就舉報(bào)了,說這錄音是AI合成的。
網(wǎng)上就吵得不可開交了,大部分人最大的理解就是,AI做不出來這種級(jí)別的錄音,為什么?因?yàn)槟莻€(gè)“國內(nèi)AI第一人”說的。
這段錄音聽著很真實(shí)對(duì)吧,有情緒有方言有雜音,所以問題其實(shí)就是兩個(gè),這段錄音,到底是不是AI做的?以及,AI到底能不能做到這種級(jí)別的錄音?
第一個(gè)問題,今天已經(jīng)有了答案,我永遠(yuǎn)無條件相信我們的公安,他們發(fā)布的通報(bào),我也相信就是事實(shí),這個(gè)沒有任何可以爭議的。所以第一個(gè)問題的答案相當(dāng)明確,那就是AI做的。
那么第二個(gè)問題,最關(guān)鍵的來了,AI到底能不能做到這種級(jí)別的錄音。
我的答案,當(dāng)然能。
首先,我需要在這里科普一下,AI是個(gè)大類,而在細(xì)分里面還有很多賽道。
有語言大模型(GPT、Claude、豆包等等),有AI繪圖(MJ、SD、FLUX等等),有AI音頻(11Labs、SVC、GPT-Sovtis、Suno等等)、有AI視頻(Runway、可靈、豆包、Pixverse等等)、有AI 3D(TripoAI、Meshy等等)。
而AI音頻里,又分為AI生成音樂、AI生成音效、聲音克隆。
這個(gè)錄音,屬于聲音克隆這個(gè)賽道里面的。
所以不要說AI能做出來這個(gè)就比OpenAI比ChatGPT還要牛逼,都不是一個(gè)賽道的,有啥可比的,就像你說哇這個(gè)洗衣機(jī)洗衣服真牛逼,比那個(gè)冰箱還要牛逼。。。
而聲音克隆,又分為兩種:TTS(文本生成語音)、SVC(AI換聲)。
TTS就是給一段一個(gè)人的人聲,只要幾秒幾十秒的素材,就能訓(xùn)練一個(gè)AI模型,然后直接用文字就能生成特定人聲音音頻的語音合成,現(xiàn)在最好的開源項(xiàng)目應(yīng)該是GPT-sovits。
SVC你就可以通俗的理解成AI換聲,就是AI時(shí)代的變聲器。現(xiàn)在AI變聲器領(lǐng)域三個(gè)扛把子項(xiàng)目:So-vits-svc、RVC、DDSP。
OK,現(xiàn)在清楚在AI聲音克隆領(lǐng)域,也有兩種手段來實(shí)現(xiàn)聲音偽造了吧。
TTS項(xiàng)目,優(yōu)點(diǎn)是數(shù)據(jù)要求短,5秒的音頻素材就行,就能克隆你的聲音,后續(xù)只要給文本就能生成音頻,成本極低效果極快。但是缺點(diǎn)就是,情緒、停頓、真實(shí)度的上限都很低,聽個(gè)幾十秒,就能非常輕松的聽出來哦這個(gè)是AI味道。
而之前,大家覺得AI做不了盧總的音頻偽造,都是先入為主的帶入了TTS的思路,覺得一定是用TTS做出來的。
非常坦率的講,TTS做盧總這種級(jí)別的音頻,就我所知道的市面上公開的產(chǎn)品(不包括各大公司內(nèi)部實(shí)驗(yàn)室的項(xiàng)目),確實(shí)有點(diǎn)難。
但是,思路打開,TTS做不了這個(gè),但是SVC呢?
SVC的缺點(diǎn),就是成本高,需要起步30分鐘的音頻數(shù)據(jù)集,然后跑幾個(gè)小時(shí)的煉丹訓(xùn)練這個(gè)人的人聲模型,最后還需要再找一個(gè)人錄一段音頻,再用SVC換聲,把音色替換過去。
而優(yōu)點(diǎn)就非常的直白了,這玩意能保留說話人的所有情緒、停頓、語氣、方言等等等等,質(zhì)量上限約等于無限,只要模型好,你根本聽不出來這到底是不是AI的。
連歌聲都可以無縫換聲,換你個(gè)說話聲音,簡直就是個(gè)小case了好吧。
去年爆火的「AI孫燕姿」,就是拿SVC做的。
所以用SVC做盧總的AI音頻偽造,步驟也很簡單。
1. 從網(wǎng)上收集盧總的30分鐘左右說話數(shù)據(jù),這個(gè)很好找,畢竟他是名人。
2. 用SVC或者RVC,把盧總的聲音清洗完,訓(xùn)練成一個(gè)AI模型。
3. 盧總是安慶人,合肥那邊安慶人很多,找一個(gè)跟他口音差不多的,把需要合成的音頻自己先念一遍。
4. 最后用SVC的AI模型,把念完的音頻替換成他的聲音。
女聲同理。
至此,完畢。
如果你還想聽著真實(shí)一點(diǎn),就用剪映啥的加點(diǎn)風(fēng)噪環(huán)境音,太多了,隨便找,你要環(huán)境音,傳統(tǒng)音頻軟件能處理,當(dāng)然,你也可以拿著帶環(huán)境音的數(shù)據(jù)集進(jìn)去訓(xùn)練,雖然我不推薦這么做。。。
特別是原視頻那個(gè)方式,是把錄音發(fā)到手機(jī)上,再用手機(jī)播放,用另一臺(tái)手機(jī)來錄,本身環(huán)境音就一堆了,還夾在著哥們背景笑聲,亂七八糟的。這都屬于場外因素了。。。
所以,回到第二個(gè)問題,AI能不能做盧總那種的偽造錄音?當(dāng)然能。
不要把AI想的太神話,也別把AI想的太垃圾,人工智能,很多時(shí)候是人工+智能。
現(xiàn)在的TTS,解決不了情緒問題,那為啥非要讓AI去搞定情緒?
你人工念完了換音色不就行了?這就是人工+智能。
思路打開,不要太局限。
AI是你的助手,是輔助工具,是讓你用的,不是讓你啥都甩給他當(dāng)甩手掌柜的。
最后,我想聲明一下。
我寫下這篇文章,不是讓大家去知道這個(gè)技術(shù),而去犯法,做一些法外之事,成為法外狂徒。
而是希望做一個(gè)關(guān)于AI音頻的小小科普,抹平信息差,讓大家知道有這么個(gè)技術(shù),上限就在這,不要覺得AI做不到就可以掉以輕心。而是要知道,現(xiàn)在的AI,可以達(dá)到什么地步,什么水平。
在人工+智能的加持下,能做到什么事情。
科技的進(jìn)步是不可逆的,所有人都是這巨大洪流中的一滴水,只會(huì)被裹挾著前行,知道永遠(yuǎn)比不知道好,知己知彼,方能百戰(zhàn)不殆。
我們學(xué)習(xí)很多東西,學(xué)習(xí)AI,很多時(shí)候,是為了保護(hù)我們自己。
還有,保護(hù)我們的家人。
然后,更好的生活。
近期文章
更多