一個名叫「Music To Image」應(yīng)用程序在Hugging Face社區(qū)橫空出世后,直接熱度飆升,沖上了本周熱搜榜,讓人們看到了「音生圖」的潛在可能性。
簡而言之,只要上傳一段音樂,它就能根據(jù)音樂旋律和歌詞,生成一張對應(yīng)意境的圖片。
玩法也十分簡單,只需在頁面上拖拽或者上傳一段音頻文件,支持MP3/WAV等常見音頻格式,AI會直接調(diào)用AI繪畫工具Stable Diffusion的API接口,進行下一步的「文生圖」動作。
將音頻發(fā)送到LP-Music-Caps以生成音頻字幕,然后使用Llama2大模型將其轉(zhuǎn)換為說明性圖像描述,最后運行Stable Diffusion XL以從音頻生成圖像!
注意:音頻僅能推理前30秒。