亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

<style id="4yr5b"><acronym id="4yr5b"></acronym></style>

<blockquote id="4yr5b"><b id="4yr5b"></b></blockquote>

首頁 > 資訊 > 文章

2024-03-20 10:05

谷歌發(fā)布首個(gè)多模態(tài)視頻生成模型VLOGGER AI：讓靜態(tài)人物肖像圖像開口“說話”

近日，谷歌在其 GitHub 頁面發(fā)布博文介紹一款名為 VLOGGER AI 的新模型，用戶只需要輸入一張肖像照片和一段音頻內(nèi)容，該模型可以讓這些人物“動起來”，富有面部表情地朗讀音頻內(nèi)容。

VLOGGER AI 是一種適用于虛擬肖像的多模態(tài) Diffusion 模型，使用 MENTOR 數(shù)據(jù)庫進(jìn)行訓(xùn)練，該數(shù)據(jù)庫中包含超過 80 萬名人物肖像，以及累計(jì)超過 2200 小時(shí)的影片，從而讓 VLOGGER 生成不同種族、不同年齡、不同穿著、不同姿勢的肖像影片。

研究人員表示：“和此前的多模態(tài)模型相比，VLOGGER AI 的優(yōu)勢在于不需要對每個(gè)人進(jìn)行訓(xùn)練，不依賴于人臉檢測和裁剪，可以生成完整的圖像（而不僅僅是人臉或嘴唇），并且考慮了廣泛的場景（例如可見軀干或不同的主體身份），這些對于正確合成交流的人類至關(guān)重要”。

除了將靜態(tài)人物進(jìn)行動態(tài)轉(zhuǎn)化之外，還可以針對不同語言系統(tǒng)進(jìn)行口型的轉(zhuǎn)換，比如將一則英語播報(bào)的主播轉(zhuǎn)換為西班牙語的口型。這將有助于視頻主播將內(nèi)容注入更多的語言場景。

谷歌的研究團(tuán)隊(duì)認(rèn)為，可以將 VLOGGER 應(yīng)用于將 AI 聊天機(jī)器人具象可視化，比如讓機(jī)器人擁有可視化的人物軀干，AI 就可以通過語音、手勢和眼神交流以自然的方式與人類互動。 VLOGGER 的應(yīng)用場景包括可以用于學(xué)術(shù)報(bào)告、教育場域和視頻旁白等等 AI 數(shù)字人的應(yīng)用領(lǐng)域。

圍觀項(xiàng)目主頁：

https://enriccorona.github.io/vlogger/

6

查看相關(guān)話題： #谷歌 #AI視頻 #AI視頻生成 #AI數(shù)字人

相關(guān)文章

一打雜的

作者已發(fā)布 419 篇文章

近期文章

更多

OpenAI明年將推出計(jì)算機(jī)控制智能體Operator丨小米成立AI平臺部，醞釀智能眼鏡丨傳聞蘋果正在研發(fā)AI智能家居中控

OpenAI明年將推出計(jì)算機(jī)控制智能體Operator丨小米成立AI平臺部，醞釀智能眼鏡丨傳聞蘋果正在研發(fā)AI智能家居中控

李彥宏：文心大模型日調(diào)用量超15億丨百度發(fā)布文心「iRAG」文生圖技術(shù)丨小度AI智能眼鏡發(fā)布，搭載大模型邊走邊問

李彥宏：文心大模型日調(diào)用量超15億丨百度發(fā)布文心「iRAG」文生圖技術(shù)丨小度AI智能眼鏡發(fā)布，搭載大模型邊走邊問

字節(jié)跳動內(nèi)測豆包通用圖像編輯模型SeedEdit丨Grok聊天機(jī)器人免費(fèi)版內(nèi)測丨月之暗面Kimi創(chuàng)始人被提起仲裁

字節(jié)跳動內(nèi)測豆包通用圖像編輯模型SeedEdit丨Grok聊天機(jī)器人免費(fèi)版內(nèi)測丨月之暗面Kimi創(chuàng)始人被提起仲裁

奧特曼認(rèn)為GPT-4“有點(diǎn)糟糕”丨Stability AI推出3D渲染視頻模型Stable Video 3D丨谷歌推出多模態(tài)視頻模型VLOGGER

上一篇

庫克今年首次訪華，國內(nèi)首談生成式AI丨微軟收購OpenAI競爭對手Inflection AI丨黃仁勛回應(yīng)中國算力芯片出貨問題

下一篇

<strong id="8m4lt"></strong>