超強(qiáng)AI音頻生成圖像工具「Music To Image」體驗(yàn)測評:我讓AI聽完周杰倫的歌,它還把歌里的故事畫了出來
AI音頻生成圖像工具:
工具介紹:「音生圖」應(yīng)用,只要上傳一段音樂,它就能根據(jù)音樂旋律和歌詞,生成一張對應(yīng)意境的圖片。將音頻上傳到模型,自動(dòng)將音頻生成文本描述,然后使用Llama2大模型將其轉(zhuǎn)換為說明性的圖像描述,最后運(yùn)行Stable Diffusion XL以從音頻生成圖像!
工具鏈接:http://ntrq.com.cn/sites/1303.html
2023年AIGC的浪潮奔涌而來,讓每一位與EVA同行、先知先行的家人們,見識到了每一朵AI浪花的無限可能。
生成式AI目前比較常見的形態(tài)有「文生文」「文生圖」「文生視頻」等等,或者經(jīng)由多媒體逆向轉(zhuǎn)換回文本輸出。
最近百度、微軟、谷歌等人工智能大廠陸續(xù)開放了圖片上傳讓AI進(jìn)行認(rèn)知判讀的能力,「圖生文」已經(jīng)不稀罕。但是有一種多模態(tài)的玩法,你敢想嗎——讓AI“聽懂”人類音樂,由「音樂生成文本和圖片」會(huì)是什么樣?
“能不能給我一首歌的時(shí)間”,慢慢將它變成一幅畫卷。
音樂無國界,音樂的魅力,就是讓任何人聆聽后都能隨之腦補(bǔ)一段虛空影像,每個(gè)人都能對這首歌產(chǎn)生獨(dú)特理解。
那么,由人類訓(xùn)練出來的AI能“聽懂”歌曲么?
最近,一個(gè)名叫「Music To Image」的AI應(yīng)用出現(xiàn)在Hugging Face大模型社區(qū),直接飆升本周熱門,「音樂生成圖片」的玩法首次被全面激發(fā)。
玩法也十分簡單,只需在頁面上拖拽或者上傳一段音頻文件,支持MP3/WAV等常見音頻格式(EVA個(gè)人推薦不要太長,容易拉長推理時(shí)長)。
在圖中左下角粘貼YouTube的視頻地址,點(diǎn)擊「Load YT song」,AI應(yīng)用平臺還能自動(dòng)提取在線音頻。
那么AI“腦中”的歌曲會(huì)長出怎樣的畫面呢?
王心凌《當(dāng)你》:能理解節(jié)奏夾帶的情緒
這么有意思的AIGC應(yīng)用平臺,自然要好好調(diào)戲!
EVA嘗試上傳了一段王心凌的《當(dāng)你》副歌高潮部分,AI允許用戶選擇是否需要識別“歌詞”(Lyrics)。我勾選了“Yes”,然后便是——
很驚訝,它竟然能夠準(zhǔn)確研讀出中文…
當(dāng)你的眼睛瞇著笑,當(dāng)你喝可樂當(dāng)你吵。
我想對你好,你從來不知道。
想你想你,也能成為嗜好。
AI嘗試“理解了”這首歌的副歌部分,并且以文本的形式表達(dá)了它對這首歌的理解:
該圖像描繪了在一個(gè)溫暖的夏夜,一群青少年聚集在篝火旁。他們都在笑著,空氣中彌漫著一種懷舊和渴望的感覺。女歌手坐在一根圓木上,彈著原聲吉他,用心歌唱。
電吉他和低音吉他在背景中清晰可見,為場景增添了深度和能量。音樂的節(jié)奏體現(xiàn)在樹木在風(fēng)中輕輕搖曳,閃爍的篝火營造出溫暖舒適的光芒。當(dāng)音樂達(dá)到高潮時(shí),大家自發(fā)地爆發(fā)出歡呼聲和掌聲,他們的臉上洋溢著喜悅和聯(lián)系。
“女歌手”指的是王心凌的音色,一群年輕人圍著篝火彈吉他,訴說著懷念與渴望的愛情,這個(gè)畫面也太吻合這首歌的畫面幻想了。
然后根據(jù)這段AI「音樂生成文本」的“理解”,AI會(huì)直接調(diào)用AI繪畫工具Stable Diffusion的API接口,進(jìn)行下一步的「文生圖」動(dòng)作。
AI幫我們畫出了這樣一幅《當(dāng)你》的畫面——
不知道為什么,看到這一幕,EVA竟然有點(diǎn)感動(dòng)。
伯牙子期的高山流水遇知音的故事,大概也莫過于此了吧!
完全不一樣的是,知音竟然不是人類!
但話說回來,Stable Diffusion生成的人像臉龐和手指依然崩壞。
林俊杰《江南》:悲春傷秋的殉道者
繼續(xù)!接下來,換成一位男歌手吧!
EVA往AI平臺上傳了家人們耳熟能詳?shù)牧挚〗芙?jīng)典歌曲《江南》的副歌部分,長度為34秒。
同樣的上傳MP3文件動(dòng)作,然后點(diǎn)擊「Generate Image from Music」。生成的時(shí)間根據(jù)云端服務(wù)器的隊(duì)列情況與音頻文件的長度而定,通常30秒的音頻生成大約在2分鐘左右。
AI生成的“理解”文案是——
該圖像描繪了一對夫婦在秋高氣爽的日子里站在山坡上俯瞰寧靜的湖泊。男歌手背對著鏡頭,帶著沉思的表情看著窗外的風(fēng)景。他的愛人就站在他身邊,雙手摟著他的腰,抬起頭迎上他的目光。
兩人都穿著簡單而優(yōu)雅的衣服,微風(fēng)拂過頭發(fā)。頭頂?shù)奶炜帐巧钏{(lán)色的,飄散著幾朵蓬松的云彩。隨著歌曲的進(jìn)行,夫妻倆開始翩翩起舞,動(dòng)作流暢優(yōu)美,仿佛被微風(fēng)吹拂一般。
氣氛充滿浪漫和渴望,空氣中彌漫著懷舊和心碎的感覺。該圖像捕捉了歌曲情感的精髓,重點(diǎn)關(guān)注這對夫婦的情感旅程和他們周圍自然世界的美麗。
不強(qiáng)求對歌曲的畫面認(rèn)知與中國風(fēng)的曲風(fēng)理解,單純從這段文字來看,首先“男歌手”的判斷是對的,也抓到了歌曲里邊包含的那種失戀、殉情與悲傷的基調(diào)。
AI生成對應(yīng)副歌部分的畫面是——
AI“腦補(bǔ)”的殉情畫面,是相約投湖自盡么?——“不懂愛恨情愁煎熬的我們,都以為相愛就像風(fēng)云的善變”。
Emmm…你竟然也不能說AI的“理解”偏差得很離譜,因?yàn)榍镆鉂馔c悲春傷秋聯(lián)系在一起。
周杰倫《楓》:意境理解完美!
既然已經(jīng)觸及了秋天,咱們再換一首周杰倫膾炙人口的《楓》考驗(yàn)一下AI。
AI生成的“理解”文案是——
該圖像描繪了一對夫婦站在懸崖上俯瞰廣闊的秋季景觀。夕陽西下,給整個(gè)場景鍍上一層溫暖的橙色光芒。男歌手背對著觀眾站立,雙臂向兩側(cè)伸展,全心全意地唱歌。他的頭發(fā)被微風(fēng)吹到腦后,他的雙眼緊閉,專注地專注著。在他身后,可以看到女歌手,她的臉背向觀眾,閉著眼睛沉思。
在背景中可以看到電吉他和低音吉他,它們的琴弦隨著音樂而振動(dòng)。遠(yuǎn)處隱隱約約傳來鼓聲,給場景增添了深度和節(jié)奏。當(dāng)這對夫婦站在懸崖上時(shí),氣氛是一種情感渴望,沉浸在自己的思緒和回憶中。風(fēng)輕輕地帶著秋天的氣息,給畫面增添了一絲懷舊和憂郁的感覺。
當(dāng)音樂達(dá)到高潮時(shí),夫妻倆轉(zhuǎn)身面對面,眼神深邃而充滿激情。畫面漸漸變黑,空氣中回蕩著兩人齊聲跳動(dòng)的心跳聲。
盡管不懂AI是怎么“聽出兩位歌手”,但AI完整地“理解了”周董歌詞當(dāng)中的悲情色彩,整個(gè)描述提示詞也是非常有畫面感。EVA愿意給AI打上9分,扣一分怕它驕傲!
只要歌詞與曲調(diào)理解對了,生成的畫面基本不會(huì)偏離太大。
漫山遍野的紅葉,與落日構(gòu)成了深情的畫卷。
EVA今年也是頭一回聽說「音生圖」,這種玩法真的太有意思了。未來還會(huì)有什么新鮮事兒,我已經(jīng)好奇心免疫了
「音生圖」背后的神秘獨(dú)角獸
給「Music To Image」大模型做算力背書的“獨(dú)角獸企業(yè)”正是Hugging Face。
這家平臺公司致力于成為AI機(jī)器學(xué)習(xí)領(lǐng)域的GitHub,通過創(chuàng)建一個(gè)開放開源的機(jī)器學(xué)習(xí)模型社區(qū),讓全球AI開發(fā)者免費(fèi)使用,將最前沿的技術(shù)通過開放平臺進(jìn)行普惠化。
8月8日,英偉達(dá)宣布與Hugging Face達(dá)成戰(zhàn)略合作關(guān)系,作為AI算力界的領(lǐng)頭羊,英偉達(dá)看中的正是Hugging Face開源社區(qū)存在的多樣性與潛力值。
資本大佬的高度認(rèn)可離不開Hugging Face過硬的商業(yè)邏輯。
首先,Hugging Face降低了開發(fā)者的訓(xùn)練成本,允許開發(fā)者將諸如「音生圖」這種AI能力直接集成到自己的應(yīng)用產(chǎn)品中,完全省去了訓(xùn)練環(huán)節(jié)。
其次,Hugging Face社區(qū)上目前已經(jīng)匯集超過12萬個(gè)大模型,數(shù)量和質(zhì)量還在不斷提升。
最后,類似于GitHub社區(qū)的免費(fèi)開源模式,Hugging Face不斷吸引來自世界各地的開發(fā)者云集。
Hugging Face社區(qū)內(nèi)這款最新的「Music To Image」AI音頻生成圖片的多模態(tài)轉(zhuǎn)換工具,它的本質(zhì)生成邏輯是音頻→文本提示詞→圖像,為AIGC創(chuàng)作提供了全新的視角與創(chuàng)作玩法。想必相信看到這里的家人朋友們已經(jīng)躍躍欲試,想拿自己喜歡的歌曲來考驗(yàn)AI了。趕緊點(diǎn)擊文章頁面頂部的鏈接去體驗(yàn)吧!