伊人久久大香线蕉精品,一本色道av久久精品+网站,伊人久久大香线蕉午夜

亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

首頁 > 資訊 > 文章

2024-09-30 09:57

三只羊盧總的AI合成錄音到底能不能做？我的答案是：當(dāng)然能

今天凌晨，N多人給我發(fā)了一張圖，說警方通報(bào)了，問我到底怎么看三只羊錄音是不是AI這事。

還有朋友跟我說，有個(gè)號(hào)稱「國內(nèi)AI第一人」的，之前信誓旦旦的說這錄音必不可能是AI，AI做不出來。

所以這個(gè)通報(bào)背后，會(huì)不會(huì)背后是有些陰謀論？

我差點(diǎn)都噴了，國內(nèi)AI第一人？我第一反應(yīng)是院士也下場參加這種無聊的事了？

然后查了一下...哦.....算了不提了。

我覺得我有必要科普一下，就是AI到底能不能做到三只羊盧總錄音級(jí)別?

我可以明確的給你一個(gè)回答，是：能。

先簡單說下前情提要。

三只羊跟辛巴有一段亂七八糟的風(fēng)波，反正就是互相掐架，你來我往，好不熱鬧。

然后風(fēng)波正甚時(shí)，三只羊董事長盧文慶的一段炸裂的錄音被全網(wǎng)瘋傳。

就是這個(gè)錄音視頻，我做了刪減，其中一些不雅片段我也全部消音處理了。

內(nèi)容炸裂不堪入耳，信量極大且內(nèi)容十分驚人，其中涉及權(quán)斗、出軌等等等，總結(jié)一下就是盧總自爆和三只羊所有女主播有過不正當(dāng)?shù)年P(guān)系。還點(diǎn)名看不起張一鳴。。。

大概就是這么個(gè)事，然后三只羊就舉報(bào)了，說這錄音是AI合成的。

網(wǎng)上就吵得不可開交了，大部分人最大的理解就是，AI做不出來這種級(jí)別的錄音，為什么?因?yàn)槟莻€(gè)“國內(nèi)AI第一人”說的。

這段錄音聽著很真實(shí)對(duì)吧，有情緒有方言有雜音，所以問題其實(shí)就是兩個(gè)，這段錄音，到底是不是AI做的?以及，AI到底能不能做到這種級(jí)別的錄音?

第一個(gè)問題，今天已經(jīng)有了答案，我永遠(yuǎn)無條件相信我們的公安，他們發(fā)布的通報(bào)，我也相信就是事實(shí)，這個(gè)沒有任何可以爭議的。所以第一個(gè)問題的答案相當(dāng)明確，那就是AI做的。

那么第二個(gè)問題，最關(guān)鍵的來了，AI到底能不能做到這種級(jí)別的錄音。

我的答案，當(dāng)然能。

首先，我需要在這里科普一下，AI是個(gè)大類，而在細(xì)分里面還有很多賽道。

有語言大模型(GPT、Claude、豆包等等)，有AI繪圖(MJ、SD、FLUX等等)，有AI音頻(11Labs、SVC、GPT-Sovtis、Suno等等)、有AI視頻(Runway、可靈、豆包、Pixverse等等)、有AI 3D(TripoAI、Meshy等等)。

而AI音頻里，又分為AI生成音樂、AI生成音效、聲音克隆。

這個(gè)錄音，屬于聲音克隆這個(gè)賽道里面的。

所以不要說AI能做出來這個(gè)就比OpenAI比ChatGPT還要牛逼，都不是一個(gè)賽道的，有啥可比的，就像你說哇這個(gè)洗衣機(jī)洗衣服真牛逼，比那個(gè)冰箱還要牛逼。。。

而聲音克隆，又分為兩種：TTS(文本生成語音)、SVC(AI換聲)。

TTS就是給一段一個(gè)人的人聲，只要幾秒幾十秒的素材，就能訓(xùn)練一個(gè)AI模型，然后直接用文字就能生成特定人聲音音頻的語音合成，現(xiàn)在最好的開源項(xiàng)目應(yīng)該是GPT-sovits。

SVC你就可以通俗的理解成AI換聲，就是AI時(shí)代的變聲器。現(xiàn)在AI變聲器領(lǐng)域三個(gè)扛把子項(xiàng)目：So-vits-svc、RVC、DDSP。

OK，現(xiàn)在清楚在AI聲音克隆領(lǐng)域，也有兩種手段來實(shí)現(xiàn)聲音偽造了吧。

TTS項(xiàng)目，優(yōu)點(diǎn)是數(shù)據(jù)要求短，5秒的音頻素材就行，就能克隆你的聲音，后續(xù)只要給文本就能生成音頻，成本極低效果極快。但是缺點(diǎn)就是，情緒、停頓、真實(shí)度的上限都很低，聽個(gè)幾十秒，就能非常輕松的聽出來哦這個(gè)是AI味道。

而之前，大家覺得AI做不了盧總的音頻偽造，都是先入為主的帶入了TTS的思路，覺得一定是用TTS做出來的。

非常坦率的講，TTS做盧總這種級(jí)別的音頻，就我所知道的市面上公開的產(chǎn)品（不包括各大公司內(nèi)部實(shí)驗(yàn)室的項(xiàng)目），確實(shí)有點(diǎn)難。

但是，思路打開，TTS做不了這個(gè)，但是SVC呢?

SVC的缺點(diǎn)，就是成本高，需要起步30分鐘的音頻數(shù)據(jù)集，然后跑幾個(gè)小時(shí)的煉丹訓(xùn)練這個(gè)人的人聲模型，最后還需要再找一個(gè)人錄一段音頻，再用SVC換聲，把音色替換過去。

而優(yōu)點(diǎn)就非常的直白了，這玩意能保留說話人的所有情緒、停頓、語氣、方言等等等等，質(zhì)量上限約等于無限，只要模型好，你根本聽不出來這到底是不是AI的。

連歌聲都可以無縫換聲，換你個(gè)說話聲音，簡直就是個(gè)小case了好吧。

去年爆火的「AI孫燕姿」，就是拿SVC做的。

所以用SVC做盧總的AI音頻偽造，步驟也很簡單。

1. 從網(wǎng)上收集盧總的30分鐘左右說話數(shù)據(jù)，這個(gè)很好找，畢竟他是名人。

2. 用SVC或者RVC，把盧總的聲音清洗完，訓(xùn)練成一個(gè)AI模型。

3. 盧總是安慶人，合肥那邊安慶人很多，找一個(gè)跟他口音差不多的，把需要合成的音頻自己先念一遍。

4. 最后用SVC的AI模型，把念完的音頻替換成他的聲音。

女聲同理。

至此，完畢。

如果你還想聽著真實(shí)一點(diǎn)，就用剪映啥的加點(diǎn)風(fēng)噪環(huán)境音，太多了，隨便找，你要環(huán)境音，傳統(tǒng)音頻軟件能處理，當(dāng)然，你也可以拿著帶環(huán)境音的數(shù)據(jù)集進(jìn)去訓(xùn)練，雖然我不推薦這么做。。。

特別是原視頻那個(gè)方式，是把錄音發(fā)到手機(jī)上，再用手機(jī)播放，用另一臺(tái)手機(jī)來錄，本身環(huán)境音就一堆了，還夾在著哥們背景笑聲，亂七八糟的。這都屬于場外因素了。。。

所以，回到第二個(gè)問題，AI能不能做盧總那種的偽造錄音？當(dāng)然能。

不要把AI想的太神話，也別把AI想的太垃圾，人工智能，很多時(shí)候是人工+智能。

現(xiàn)在的TTS，解決不了情緒問題，那為啥非要讓AI去搞定情緒?

你人工念完了換音色不就行了?這就是人工+智能。

思路打開，不要太局限。

AI是你的助手，是輔助工具，是讓你用的，不是讓你啥都甩給他當(dāng)甩手掌柜的。

最后，我想聲明一下。

我寫下這篇文章，不是讓大家去知道這個(gè)技術(shù)，而去犯法，做一些法外之事，成為法外狂徒。

而是希望做一個(gè)關(guān)于AI音頻的小小科普，抹平信息差，讓大家知道有這么個(gè)技術(shù)，上限就在這，不要覺得AI做不到就可以掉以輕心。而是要知道，現(xiàn)在的AI，可以達(dá)到什么地步，什么水平。

在人工+智能的加持下，能做到什么事情。

科技的進(jìn)步是不可逆的，所有人都是這巨大洪流中的一滴水，只會(huì)被裹挾著前行，知道永遠(yuǎn)比不知道好，知己知彼，方能百戰(zhàn)不殆。