亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

首頁  >  資訊  >  文章
2024-02-29 15:19

開局一張圖,內(nèi)容AI編:阿里發(fā)布人物肖像神態(tài)表情AI短視頻生成模型EMO:AI小姐姐唱跳RAP,全由你做主

圖片

2月28日,阿里巴巴人工智能團(tuán)隊(duì)發(fā)布了基于音頻驅(qū)動的肖像臉部表情神態(tài)動作視頻生成框架EMO(Emote Portrait Alive)。

顧名思義,也就是「生動的肖像神態(tài)」。

從架構(gòu)命名就很直覺,這款模型架構(gòu)是用于生成人物表情的。

簡單感受一下,給你一點(diǎn)小小的AI影像震撼:

你可以讓赫本演唱一曲英國歌手艾德·希蘭的《Perfect》,隨著歌曲旋律,她會做出挑眉、皺眉等細(xì)微的表情變化。

一位AI繪畫模型繪制的女孩,她生動地表演了一首陶喆的《Melody》,音頻來自女歌手寧藝卓翻唱的版本。在唱到一些高音部分時(shí),“她”甚至還會做出皺鼻子等鼻腔共鳴發(fā)力的表情。

除了國語歌,粵語歌也能輕松對上口型。

下面這條演示視頻是張國榮翻唱陳奕迅的《無條件》。

讓二次元小姐姐動起來,可能是最快得到應(yīng)用的領(lǐng)域。

比如,你可以讓動畫《進(jìn)擊的巨人》中的角色Ymir Fritz親自演唱動畫片尾曲《衝撃》。與真人和3D人物相比,紙片人的表情管理更沉穩(wěn)一些。

在翻唱Kpop歌曲《SOLO》時(shí),這位AI生成的數(shù)字女孩十分投入,面部的輪廓線條也會隨著口型變化而變化。

唱到動情處,AI生成的蒙娜麗莎還會閉上雙眼,恰似沉浸在音樂旋律中。

如果想聽RAP,小李子可以用18歲的臉龐為你演繹美國說唱歌手埃米納姆的《GODZILLA》。

雖然中間偶爾出現(xiàn)“翻白眼”等瑕疵,但總體擬合程度還是很高的。

在生成說話視頻上,EMO同樣能為角色注入活靈活現(xiàn)的神韻。

例如這條蒙娜麗莎講話的視頻,開頭一清嗓子,那個(gè)神韻就立馬拿捏住了。

,時(shí)長00:26

雖然蒙娜麗莎初始設(shè)定就沒有眉毛,但EMO還是讓她的“眉骨部位”隨著語調(diào)做出不同神態(tài)反應(yīng),連雙下巴都靈動了起來。

下面這條Ymir Fritz說話視頻中的音頻來自游戲《尼爾:機(jī)械紀(jì)元》。

,時(shí)長00:26

借助AI生成二次元的人物形象,然后導(dǎo)入EMO讓其開口說話,這樣的工作流很可能會在不遠(yuǎn)的將來,成為游戲開發(fā)工作室的標(biāo)配。

EMO還擴(kuò)大了不同故事背景下人物“二創(chuàng)”的可塑性。

例如,你可以看到高啟強(qiáng)模仿羅翔老師講刑法。

圖片

坤哥說起了郭德綱老師的相聲……唉喲,你干嘛~(手動調(diào)大音量)?

圖片

也可以看到小丑搶死對頭臺詞,演繹《蝙蝠俠:黑暗騎士》中的經(jīng)典臺詞。

最近的兩個(gè)月,阿里在人像視頻生成方面做出了諸多建樹,讓未曾學(xué)過舞蹈的普通人也可以輕松打造自己的舞蹈視頻。

圖片

這次,阿里的創(chuàng)新性技術(shù)架構(gòu),讓用戶只需上傳一張參考的圖像和一段聲音音頻用于解析,該框架能夠自主生成具有高度真實(shí)感、豐富面部表情和頭部姿勢的帶配音肖像視頻。

具體來說,阿里的人像視頻帶配音生成框架EMO有以下幾個(gè)特性:

在較少的資源條件下利用音頻視頻擴(kuò)散模型生成富有表現(xiàn)張力的肖像視頻

表情生動,動作精準(zhǔn):EMO重塑AI視頻生成

技術(shù)奇跡:一張圖片+聲音,EMO讓肖像視頻活靈活現(xiàn)

告別傳統(tǒng):EMO的音頻視頻擴(kuò)散模型,開啟人像視頻新紀(jì)元

提供一張圖片生成肖像說話視頻,這個(gè)事情并不新鮮,但是能做到像阿里這么自然流暢在業(yè)內(nèi)尚屬首次。

圖片

不僅如此,既能生成生動的表情神態(tài),還能出現(xiàn)各種人類說話搖頭晃腦的頭部姿態(tài),人物講話的唇形與配音完美吻合匹配,同時(shí)還能根據(jù)需求的時(shí)長來控制生成視頻的長度。

阿里再次實(shí)現(xiàn)了國內(nèi)企業(yè)在大模型技術(shù)應(yīng)用方面的“遙遙領(lǐng)先”。

EMO框架的實(shí)現(xiàn)邏輯

圖片

通過這張示意圖,我們大致可以將EMO框架的AI生成,分為兩個(gè)主要階段:

在第一階段,是為了給原始圖像進(jìn)行特征標(biāo)記,使用ReferenceNet從用戶提供的參考圖像和運(yùn)動關(guān)鍵幀中提取人物特征。

接著進(jìn)入第二階段,在擴(kuò)散過程階段我們用到了Diffusion Process模型,接入一個(gè)預(yù)訓(xùn)練的音頻編碼器對用戶提供的音頻嵌入進(jìn)行處理。

面部區(qū)域的遮罩與多幀噪聲相結(jié)合,以指導(dǎo)人物面部圖像的逐幀生成,并且保持高度一致性。然后,主干網(wǎng)絡(luò)被用來執(zhí)行去噪操作。

在主干網(wǎng)絡(luò)內(nèi)部,阿里引入了兩種提升一致性的注意力機(jī)制:Reference-Attention和Audio-Attention。

這兩種機(jī)制分別對于維持角色的獨(dú)特性和調(diào)節(jié)角色的動作至關(guān)重要。此外,還使用了時(shí)間模塊(Temporal Modules)來處理時(shí)間維度的視頻幀排序,以及調(diào)整面部神態(tài)的運(yùn)動速度。

圖片

還有一些其他的精彩視頻,比如這個(gè)令EVA印象最深刻的——讓OpenAI Sora模型生成的網(wǎng)紅日本街頭漫步女子開口唱歌——Sora本ra「活了」。

EMO令全球創(chuàng)作愛好者感到振奮

阿里EMO上線僅僅一天,目前這一項(xiàng)目已經(jīng)火爆全網(wǎng)。

日本的AI技術(shù)博主KAJI表示:

阿里巴巴推出了一款有趣的人工智能架構(gòu),當(dāng)上傳靜態(tài)圖片和聲音源時(shí),它就能唱歌和說話,表現(xiàn)感染力很強(qiáng)。阿里正在進(jìn)行大量研究,重點(diǎn)關(guān)注AI在娛樂方面的應(yīng)用,例如其舞蹈視頻生成人工智能。

圖片

華人科技博主Min Choi表示:

阿里這項(xiàng)技術(shù)真是令人難以置信。這個(gè)人工智能能讓單個(gè)圖像唱歌、說話,還能用任何音頻文件進(jìn)行說唱,表現(xiàn)力極強(qiáng)!

圖片

知名AI技術(shù)博主AK發(fā)表了一篇長文稱贊阿里:

EMO創(chuàng)作的表情肖像活靈活現(xiàn),在較少的條件下利用音頻視頻擴(kuò)散模型生成富有表現(xiàn)力的人像視頻。

通過關(guān)注音頻線索和面部動作之間的動態(tài)和細(xì)微關(guān)系,解決了在生成人像視頻時(shí)如何增強(qiáng)真實(shí)感和表現(xiàn)力的難題。發(fā)現(xiàn)了傳統(tǒng)技術(shù)的局限性,這些技術(shù)往往無法捕捉到人類表情的全貌以及個(gè)人面部風(fēng)格的獨(dú)特性。

為了解決這些問題,研究人員提出了EMO,這是一種新穎的框架,它采用直接音頻到視頻的合成方法,無需中間三維模型或面部地標(biāo)。確保了整個(gè)視頻的無縫幀轉(zhuǎn)換和一致的身份保持,從而產(chǎn)生了極富表現(xiàn)力和栩栩如生的動畫。

實(shí)驗(yàn)結(jié)果表明,EMO不僅能制作出令人信服的說話視頻,還能制作出各種風(fēng)格的唱歌視頻,在表現(xiàn)力和逼真度方面明顯優(yōu)于現(xiàn)有的最先進(jìn)方法。

圖片

總的來說,阿里又一次為生成式AI賽道注入了新的活力。

眾所周知,人工智能的發(fā)展離不開三大基本要素——人才、數(shù)據(jù)、算力。

作為國內(nèi)少有的在三個(gè)方面的資源都位居世界前列的科技大廠,阿里的突破性進(jìn)展,除了帶給我們AI技術(shù)日新月異的驚喜之外,也讓EVA第一時(shí)間給家里長輩發(fā)了消息——

??不要相信任何網(wǎng)上發(fā)布的獨(dú)白視頻,它們可能都是假的。

目前該項(xiàng)目還未開源,后續(xù)很可能會登陸阿里旗下的通義千問APP,就像之前的跳舞生成模型那樣。

如果你想了解更多的技術(shù)細(xì)節(jié),可以復(fù)制下方地址一探究竟。

項(xiàng)目主頁:

12
查看相關(guān)話題: #AI視頻 #阿里 #AI視頻生成 #AI數(shù)字人

相關(guān)文章