So-VITS-SVC是一個(gè)開源的AI數(shù)字語(yǔ)音合成大模型,基于VITS(Vector-Quantized Variational Autoencoder with Multi-head Self-Attention)的開源AI人聲克隆語(yǔ)音合成項(xiàng)目。同時(shí)也是2023年夏天紅遍大江南北的”AI孫燕姿“背后的AI技術(shù)。
模型簡(jiǎn)介:
So-VITS-SVC 是一個(gè)開源的數(shù)字音頻合成轉(zhuǎn)換AI模型,由 PlayVoice 團(tuán)隊(duì)開發(fā)。該模型使用 SoftVC 內(nèi)容編碼器來(lái)提取源音頻的語(yǔ)音特征,然后將這些特征向量直接饋入 VITS 模型,而無(wú)需將其轉(zhuǎn)換為基于文本的中間表示。因此,原始音頻的音調(diào)和語(yǔ)調(diào)得以保留。
So-VITS-SVC 在聲音質(zhì)量、音調(diào)匹配和語(yǔ)調(diào)保留方面都表現(xiàn)出良好的效果。
- 在聲音質(zhì)量方面,So-VITS-SVC 生成的聲音與原始聲音非常接近,具有清晰的音質(zhì)和自然的音色。
- 在音調(diào)匹配方面,So-VITS-SVC 能夠準(zhǔn)確地匹配目標(biāo)聲音的音調(diào),從而生成具有一致音調(diào)的歌唱聲音。
- 在語(yǔ)調(diào)保留方面,So-VITS-SVC 能夠保留原始聲音的語(yǔ)調(diào),從而生成具有自然語(yǔ)氣的歌唱聲音。
功能:
高質(zhì)量的人聲合成:So-VITS-SVC模型可以生成接近原聲或者原唱的人聲合成音頻,音質(zhì)清晰,音色相似,音準(zhǔn)準(zhǔn)確,韻律自然,表現(xiàn)力豐富??梢赃m應(yīng)不同風(fēng)格和類型的歌曲,例如流行、搖滾、古風(fēng)等,并且可以處理不同語(yǔ)言和方言的歌詞。
簡(jiǎn)單易用的訓(xùn)練和推理:So-VITS-SVC模型提供了完整的訓(xùn)練和推理教程和工具包,用戶只需要按照步驟進(jìn)行操作,就可以在本地或者云端訓(xùn)練自己的音色模型,并用它來(lái)生成人聲合成音頻。該模型對(duì)于電腦的硬件要求并不高,只需要支持CUDA的6G顯存以上的NVIDIA顯卡,以及足夠的硬盤空間。也提供了多種數(shù)據(jù)集預(yù)處理和切片工具,以及多種可視化和調(diào)試工具,方便用戶優(yōu)化和監(jiān)控訓(xùn)練過(guò)程。
豐富多樣的預(yù)訓(xùn)練模型:So-VITS-SVC模型目前已經(jīng)提供了多種語(yǔ)言(中文、日文、英文等)和多種音色(碧藍(lán)檔案、初音未來(lái)、洛天依等)的預(yù)訓(xùn)練模型供用戶下載和使用。這些預(yù)訓(xùn)練模型都經(jīng)過(guò)了大量的數(shù)據(jù)集訓(xùn)練和優(yōu)化,效果非常出色。用戶可以直接用這些預(yù)訓(xùn)練模型來(lái)生成人聲合成音頻,也可以在這些預(yù)訓(xùn)練模型的基礎(chǔ)上進(jìn)行微調(diào),以適應(yīng)自己的需求。
So-VITS-SVC 可用于各種應(yīng)用,例如:
- 歌唱聲音轉(zhuǎn)換:將一個(gè)人的聲音轉(zhuǎn)換為另一個(gè)人的聲音,以進(jìn)行歌唱。
- 歌唱聲音模仿:模仿另一個(gè)人的歌唱聲音。
- 歌詞生成:為歌曲生成歌詞。
總的來(lái)說(shuō),So-VITS-SVC是一個(gè)基于VITS的開源人聲克隆項(xiàng)目,具有高質(zhì)量的人聲合成、簡(jiǎn)單易用的訓(xùn)練和推理、豐富多樣的預(yù)訓(xùn)練模型等特點(diǎn)。其可以應(yīng)用于翻唱歌曲、生成語(yǔ)音、語(yǔ)音合成等領(lǐng)域。
So-VITS-SVC 是一個(gè)免費(fèi)的模型,可在 GitHub 上找到。