中文字幕一区二区三区久久网站,亚洲精品久久久久中文字幕,中文字幕人妻丝袜乱一区三区

亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

首頁(yè) > 資訊 > 文章

2024-03-01 10:41

AI視頻又炸了！照片+聲音變視頻，阿里emo讓Sora女主唱歌小李子說(shuō)rap

Sora之后，居然還有新的AI視頻模型，能驚艷得大家狂轉(zhuǎn)狂贊!

有了它，《狂飆》大反派高啟強(qiáng)化身羅翔，都能給大伙兒普法啦(狗頭)。

這就是阿里最新推出的基于音頻驅(qū)動(dòng)的肖像視頻生成框架，EMO(Emote Portrait Alive)。

有了它，輸入單張參考圖像，以及一段音頻(說(shuō)話、唱歌、rap均可)，就能生成表情生動(dòng)的AI視頻。視頻最終長(zhǎng)度，取決于輸入音頻的長(zhǎng)度。

你可以讓蒙娜麗莎——這位AI屆效果體驗(yàn)的老選手，朗誦一段獨(dú)白：

年輕俊美的小李子來(lái)段快節(jié)奏的rap才藝秀，嘴形跟上完全沒(méi)問(wèn)題：

甚至粵語(yǔ)口型也能hold住，這就讓哥哥張國(guó)榮來(lái)首陳奕迅的《無(wú)條件》：

總之，不管是讓肖像唱歌(不同風(fēng)格的肖像和歌曲)、讓肖像開(kāi)口說(shuō)話(不同語(yǔ)種)、還是各種“張冠李戴”的跨演員表演，EMO的效果，都讓咱看得一愣一愣的。

網(wǎng)友大感嘆：“我們正在走進(jìn)一個(gè)新的現(xiàn)實(shí)!”

(2019版《小丑》說(shuō)2008版《蝙蝠俠黑暗騎士》的臺(tái)詞)

甚至已經(jīng)有網(wǎng)友開(kāi)始對(duì)EMO生成視頻開(kāi)始了拉片，逐幀分析效果究竟怎么樣。

如下面這段視頻，主角是Sora生成的AI女士，本次為大家演唱的曲目是《Don’t Start Now》。

推友分析道：

這段視頻的一致性，比以往更上一層樓了!

一分多鐘的視頻里，Sora女士臉上的墨鏡幾乎沒(méi)有亂動(dòng)，耳朵、眉毛都有獨(dú)立的運(yùn)動(dòng)。

最精彩的是Sora女士的喉嚨好像真的有呼吸哎!她唱歌的過(guò)程中身體還有微顫和移動(dòng)，我直接大震驚!

話說(shuō)回來(lái)，EMO是熱門新技術(shù)嘛，免不了拿來(lái)與同類對(duì)比——

就在昨天，AI視頻生成公司Pika也推出了為視頻人物配音，同時(shí)“對(duì)口型”的唇形同步功能，撞車了。

具體效果怎么樣呢，我們直接擺在這兒

評(píng)論區(qū)網(wǎng)友對(duì)比過(guò)后得出的結(jié)論是，被阿里吊打了。

EMO公布論文，同時(shí)宣布開(kāi)源。

但是!雖說(shuō)開(kāi)源，GitHub上仍然是空倉(cāng)。

再但是!雖然是空倉(cāng)，標(biāo)星數(shù)已經(jīng)超過(guò)了2.1k。

惹得網(wǎng)友們真的是好著急，有吉吉國(guó)王那么急。

與Sora不同架構(gòu)

EMO論文一出，圈內(nèi)不少人松了口氣。

它與Sora技術(shù)路線不同，說(shuō)明復(fù)刻Sora不是唯一的路。

EMO并不是建立在類似DiT架構(gòu)的基礎(chǔ)上，也就是沒(méi)有用Transformer去替代傳統(tǒng)UNet，其骨干網(wǎng)絡(luò)魔改自Stable Diffusion 1.5.

具體來(lái)說(shuō)，EMO是一種富有表現(xiàn)力的音頻驅(qū)動(dòng)的肖像視頻生成框架，可以根據(jù)輸入視頻的長(zhǎng)度生成任何持續(xù)時(shí)間的視頻。

該框架主要由兩個(gè)階段構(gòu)成：

幀編碼階段

部署一個(gè)稱為ReferenceNet的UNet網(wǎng)絡(luò)，負(fù)責(zé)從參考圖像和視頻的幀中提取特征。

擴(kuò)散階段

首先，預(yù)訓(xùn)練的音頻編碼器處理音頻嵌入，人臉區(qū)域掩模與多幀噪聲相結(jié)合來(lái)控制人臉圖像的生成。

隨后是骨干網(wǎng)絡(luò)主導(dǎo)去噪操作。在骨干網(wǎng)絡(luò)中應(yīng)用了兩種注意力，參考注意力和音頻注意力，分別作用于保持角色的身份一致性和調(diào)節(jié)角色的運(yùn)動(dòng)。

此外，時(shí)間模塊被用來(lái)操縱的時(shí)間維度，并調(diào)整運(yùn)動(dòng)的速度。

在訓(xùn)練數(shù)據(jù)方面，團(tuán)隊(duì)構(gòu)建了一個(gè)包含超過(guò)250小時(shí)視頻和超過(guò)1500萬(wàn)張圖像的龐大且多樣化的音視頻數(shù)據(jù)集。

最終實(shí)現(xiàn)的具體特性如下：

可以根據(jù)輸入音頻生成任意持續(xù)時(shí)間的視頻，同時(shí)保證角色身份一致性(演示中給出的最長(zhǎng)單個(gè)視頻為1分49秒)。

支持各種語(yǔ)言的交談與唱歌(演示中包括普通話、廣東話、英語(yǔ)、日語(yǔ)、韓語(yǔ)

支持不同畫(huà)風(fēng)(照片、傳統(tǒng)繪畫(huà)、漫畫(huà)、3D渲染、AI數(shù)字人)

在定量比較上也比之前的方法有較大提升取得SOTA，只在衡量口型同步質(zhì)量的SyncNet指標(biāo)上稍遜一籌。

與其他不依賴擴(kuò)散模型的方法相比，EMO更耗時(shí)。

并且由于沒(méi)有使用任何顯式的控制信號(hào)，可能導(dǎo)致無(wú)意中生成手等其他身體部位，一個(gè)潛在解決方案是采用專門用于身體部位的控制信號(hào)。

EMO的團(tuán)隊(duì)

最后，來(lái)看看EMO背后的團(tuán)隊(duì)有那些人。

論文顯示，EMO團(tuán)隊(duì)來(lái)自阿里巴巴智能計(jì)算研究院。

作者共四位，分別是Linrui Tian，Qi Wang，Bang Zhang和Liefeng Bo。

其中，薄列峰(Liefeng Bo)，是目前的阿里巴巴通義實(shí)驗(yàn)室XR實(shí)驗(yàn)室負(fù)責(zé)人。

薄列鋒博士畢業(yè)于西安電子科技大學(xué)，先后在芝加哥大學(xué)豐田研究院和華盛頓大學(xué)從事博士后研究，研究方向主要是ML、CV和機(jī)器人。其谷歌學(xué)術(shù)被引數(shù)超過(guò)13000.

在加入阿里前，他先是在亞馬遜西雅圖總部任首席科學(xué)家，后又加入京東數(shù)字科技集團(tuán)AI實(shí)驗(yàn)室任首席科學(xué)家。

2022年9月，薄列峰加入阿里。

EMO已經(jīng)不是第一次阿里在AIGC領(lǐng)域出圈的成果了。

有AI一鍵換裝的OutfitAnyone。

還有讓全世界小貓小狗都在跳洗澡舞的AnimateAnyone。

就是下面這個(gè)：

如今推出EMO，不少網(wǎng)友在感嘆，阿里是有些技術(shù)積累在身上的。

如果現(xiàn)在把所有這些技術(shù)結(jié)合起來(lái)，那效果……

不敢想，但好期待。

總之，我們離“發(fā)給AI一個(gè)劇本，輸出整部電影”越來(lái)越近了。

One More Thing

Sora，代表文本驅(qū)動(dòng)的視頻合成的斷崖式突破。

EMO，也代表音頻驅(qū)動(dòng)的視頻合成一個(gè)新高度。

兩者盡管任務(wù)不同、具體架構(gòu)不同，但還有一個(gè)重要的共性：

中間都沒(méi)有加入顯式的物理模型，卻都在一定程度上模擬了物理規(guī)律。

因此有人認(rèn)為，這與Lecun堅(jiān)持的“通過(guò)生成像素來(lái)為動(dòng)作建模世界是浪費(fèi)且注定要失敗的”觀點(diǎn)相悖，更支持了Jim Fan的“數(shù)據(jù)驅(qū)動(dòng)的世界模型”思想。

過(guò)去種種方法失敗了，而現(xiàn)在的成功，可能真就來(lái)自還是強(qiáng)化學(xué)習(xí)之父Sutton的《苦澀的教訓(xùn)》，大力出奇跡。

查看相關(guān)話題： #AI視頻 #阿里 #EMO(Emote Portrait Alive)

相關(guān)文章

量子位

原創(chuàng)作者

知名AI科技媒體

作者已發(fā)布 131 篇文章

近期文章

OpenAI滿血版o1劇透：數(shù)學(xué)代碼能力再破天花板，已開(kāi)啟測(cè)試評(píng)估

「國(guó)產(chǎn)Sora」最新升級(jí)！《沙丘》級(jí)大片視效，人人都能免費(fèi)體驗(yàn)

我們用豆包視頻大模型，生成了AI版的《紅樓夢(mèng)》MV

二月AI爆炸！除了SORA你還知道哪個(gè)AI工具？

李彥宏：文心大模型推理成本降低到初始版本的1%，生成式AI重構(gòu)所有ToC產(chǎn)品