永久免费的av在线电影网,一本色道久久88

亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

首頁 > 資訊 > 文章

2024-02-29 15:19

開局一張圖，內(nèi)容AI編：阿里發(fā)布人物肖像神態(tài)表情AI短視頻生成模型EMO：AI小姐姐唱跳RAP，全由你做主

2月28日，阿里巴巴人工智能團(tuán)隊(duì)發(fā)布了基于音頻驅(qū)動的肖像臉部表情神態(tài)動作視頻生成框架EMO(Emote Portrait Alive)。

顧名思義，也就是「生動的肖像神態(tài)」。

從架構(gòu)命名就很直覺，這款模型架構(gòu)是用于生成人物表情的。

簡單感受一下，給你一點(diǎn)小小的AI影像震撼：

你可以讓赫本演唱一曲英國歌手艾德·希蘭的《Perfect》，隨著歌曲旋律，她會做出挑眉、皺眉等細(xì)微的表情變化。

一位AI繪畫模型繪制的女孩，她生動地表演了一首陶喆的《Melody》，音頻來自女歌手寧藝卓翻唱的版本。在唱到一些高音部分時(shí)，“她”甚至還會做出皺鼻子等鼻腔共鳴發(fā)力的表情。

除了國語歌，粵語歌也能輕松對上口型。

下面這條演示視頻是張國榮翻唱陳奕迅的《無條件》。

讓二次元小姐姐動起來，可能是最快得到應(yīng)用的領(lǐng)域。

比如，你可以讓動畫《進(jìn)擊的巨人》中的角色Ymir Fritz親自演唱動畫片尾曲《衝撃》。與真人和3D人物相比，紙片人的表情管理更沉穩(wěn)一些。

在翻唱Kpop歌曲《SOLO》時(shí)，這位AI生成的數(shù)字女孩十分投入，面部的輪廓線條也會隨著口型變化而變化。

唱到動情處，AI生成的蒙娜麗莎還會閉上雙眼，恰似沉浸在音樂旋律中。

如果想聽RAP，小李子可以用18歲的臉龐為你演繹美國說唱歌手埃米納姆的《GODZILLA》。

雖然中間偶爾出現(xiàn)“翻白眼”等瑕疵，但總體擬合程度還是很高的。

在生成說話視頻上，EMO同樣能為角色注入活靈活現(xiàn)的神韻。

例如這條蒙娜麗莎講話的視頻，開頭一清嗓子，那個(gè)神韻就立馬拿捏住了。

，時(shí)長00:26

雖然蒙娜麗莎初始設(shè)定就沒有眉毛，但EMO還是讓她的“眉骨部位”隨著語調(diào)做出不同神態(tài)反應(yīng)，連雙下巴都靈動了起來。

下面這條Ymir Fritz說話視頻中的音頻來自游戲《尼爾：機(jī)械紀(jì)元》。

，時(shí)長00:26

借助AI生成二次元的人物形象，然后導(dǎo)入EMO讓其開口說話，這樣的工作流很可能會在不遠(yuǎn)的將來，成為游戲開發(fā)工作室的標(biāo)配。

EMO還擴(kuò)大了不同故事背景下人物“二創(chuàng)”的可塑性。

例如，你可以看到高啟強(qiáng)模仿羅翔老師講刑法。

坤哥說起了郭德綱老師的相聲……唉喲，你干嘛~(手動調(diào)大音量)?

也可以看到小丑搶死對頭臺詞，演繹《蝙蝠俠：黑暗騎士》中的經(jīng)典臺詞。

最近的兩個(gè)月，阿里在人像視頻生成方面做出了諸多建樹，讓未曾學(xué)過舞蹈的普通人也可以輕松打造自己的舞蹈視頻。

這次，阿里的創(chuàng)新性技術(shù)架構(gòu)，讓用戶只需上傳一張參考的圖像和一段聲音音頻用于解析，該框架能夠自主生成具有高度真實(shí)感、豐富面部表情和頭部姿勢的帶配音肖像視頻。

具體來說，阿里的人像視頻帶配音生成框架EMO有以下幾個(gè)特性：

在較少的資源條件下利用音頻視頻擴(kuò)散模型生成富有表現(xiàn)張力的肖像視頻

表情生動，動作精準(zhǔn)：EMO重塑AI視頻生成

技術(shù)奇跡：一張圖片+聲音，EMO讓肖像視頻活靈活現(xiàn)

告別傳統(tǒng)：EMO的音頻視頻擴(kuò)散模型，開啟人像視頻新紀(jì)元

提供一張圖片生成肖像說話視頻，這個(gè)事情并不新鮮，但是能做到像阿里這么自然流暢在業(yè)內(nèi)尚屬首次。

不僅如此，既能生成生動的表情神態(tài)，還能出現(xiàn)各種人類說話搖頭晃腦的頭部姿態(tài)，人物講話的唇形與配音完美吻合匹配，同時(shí)還能根據(jù)需求的時(shí)長來控制生成視頻的長度。

阿里再次實(shí)現(xiàn)了國內(nèi)企業(yè)在大模型技術(shù)應(yīng)用方面的“遙遙領(lǐng)先”。

EMO框架的實(shí)現(xiàn)邏輯

通過這張示意圖，我們大致可以將EMO框架的AI生成，分為兩個(gè)主要階段：

在第一階段，是為了給原始圖像進(jìn)行特征標(biāo)記，使用ReferenceNet從用戶提供的參考圖像和運(yùn)動關(guān)鍵幀中提取人物特征。

接著進(jìn)入第二階段，在擴(kuò)散過程階段我們用到了Diffusion Process模型，接入一個(gè)預(yù)訓(xùn)練的音頻編碼器對用戶提供的音頻嵌入進(jìn)行處理。

面部區(qū)域的遮罩與多幀噪聲相結(jié)合，以指導(dǎo)人物面部圖像的逐幀生成，并且保持高度一致性。然后，主干網(wǎng)絡(luò)被用來執(zhí)行去噪操作。

在主干網(wǎng)絡(luò)內(nèi)部，阿里引入了兩種提升一致性的注意力機(jī)制：Reference-Attention和Audio-Attention。

這兩種機(jī)制分別對于維持角色的獨(dú)特性和調(diào)節(jié)角色的動作至關(guān)重要。此外，還使用了時(shí)間模塊(Temporal Modules)來處理時(shí)間維度的視頻幀排序，以及調(diào)整面部神態(tài)的運(yùn)動速度。

還有一些其他的精彩視頻，比如這個(gè)令EVA印象最深刻的——讓OpenAI Sora模型生成的網(wǎng)紅日本街頭漫步女子開口唱歌——Sora本ra「活了」。

EMO令全球創(chuàng)作愛好者感到振奮

阿里EMO上線僅僅一天，目前這一項(xiàng)目已經(jīng)火爆全網(wǎng)。

日本的AI技術(shù)博主KAJI表示：

阿里巴巴推出了一款有趣的人工智能架構(gòu)，當(dāng)上傳靜態(tài)圖片和聲音源時(shí)，它就能唱歌和說話，表現(xiàn)感染力很強(qiáng)。阿里正在進(jìn)行大量研究，重點(diǎn)關(guān)注AI在娛樂方面的應(yīng)用，例如其舞蹈視頻生成人工智能。

華人科技博主Min Choi表示：

阿里這項(xiàng)技術(shù)真是令人難以置信。這個(gè)人工智能能讓單個(gè)圖像唱歌、說話，還能用任何音頻文件進(jìn)行說唱，表現(xiàn)力極強(qiáng)！

知名AI技術(shù)博主AK發(fā)表了一篇長文稱贊阿里：

EMO創(chuàng)作的表情肖像活靈活現(xiàn)，在較少的條件下利用音頻視頻擴(kuò)散模型生成富有表現(xiàn)力的人像視頻。

通過關(guān)注音頻線索和面部動作之間的動態(tài)和細(xì)微關(guān)系，解決了在生成人像視頻時(shí)如何增強(qiáng)真實(shí)感和表現(xiàn)力的難題。發(fā)現(xiàn)了傳統(tǒng)技術(shù)的局限性，這些技術(shù)往往無法捕捉到人類表情的全貌以及個(gè)人面部風(fēng)格的獨(dú)特性。

為了解決這些問題，研究人員提出了EMO，這是一種新穎的框架，它采用直接音頻到視頻的合成方法，無需中間三維模型或面部地標(biāo)。確保了整個(gè)視頻的無縫幀轉(zhuǎn)換和一致的身份保持，從而產(chǎn)生了極富表現(xiàn)力和栩栩如生的動畫。

實(shí)驗(yàn)結(jié)果表明，EMO不僅能制作出令人信服的說話視頻，還能制作出各種風(fēng)格的唱歌視頻，在表現(xiàn)力和逼真度方面明顯優(yōu)于現(xiàn)有的最先進(jìn)方法。