亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

首頁  >  資訊  >  文章
2024-03-20 10:05

谷歌發(fā)布首個(gè)多模態(tài)視頻生成模型VLOGGER AI:讓靜態(tài)人物肖像圖像開口“說話”

近日,谷歌在其 GitHub 頁面發(fā)布博文介紹一款名為 VLOGGER AI 的新模型,用戶只需要輸入一張肖像照片和一段音頻內(nèi)容,該模型可以讓這些人物“動起來”,富有面部表情地朗讀音頻內(nèi)容。

VLOGGER AI 是一種適用于虛擬肖像的多模態(tài) Diffusion 模型,使用 MENTOR 數(shù)據(jù)庫進(jìn)行訓(xùn)練,該數(shù)據(jù)庫中包含超過 80 萬名人物肖像,以及累計(jì)超過 2200 小時(shí)的影片,從而讓 VLOGGER 生成不同種族、不同年齡、不同穿著、不同姿勢的肖像影片。

研究人員表示:“和此前的多模態(tài)模型相比,VLOGGER AI 的優(yōu)勢在于不需要對每個(gè)人進(jìn)行訓(xùn)練,不依賴于人臉檢測和裁剪,可以生成完整的圖像(而不僅僅是人臉或嘴唇),并且考慮了廣泛的場景(例如可見軀干或不同的主體身份),這些對于正確合成交流的人類至關(guān)重要”。

除了將靜態(tài)人物進(jìn)行動態(tài)轉(zhuǎn)化之外,還可以針對不同語言系統(tǒng)進(jìn)行口型的轉(zhuǎn)換,比如將一則英語播報(bào)的主播轉(zhuǎn)換為西班牙語的口型。這將有助于視頻主播將內(nèi)容注入更多的語言場景。

谷歌的研究團(tuán)隊(duì)認(rèn)為,可以將 VLOGGER 應(yīng)用于將 AI 聊天機(jī)器人具象可視化,比如讓機(jī)器人擁有可視化的人物軀干,AI 就可以通過語音、手勢和眼神交流以自然的方式與人類互動。 VLOGGER 的應(yīng)用場景包括可以用于學(xué)術(shù)報(bào)告、教育場域和視頻旁白等等 AI 數(shù)字人的應(yīng)用領(lǐng)域。

圍觀項(xiàng)目主頁:

6
查看相關(guān)話題: #谷歌 #AI視頻 #AI視頻生成 #AI數(shù)字人

相關(guān)文章