亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

首頁  >  資訊  >  文章
2023-09-28 12:40

AI數(shù)字人的潛力:我認為,這可能是一種很新的未來

說起AI數(shù)字人,大家應該有所耳聞。之前因為臉書CEO扎克伯格重點押寶元宇宙,而作為大家在元宇宙的化身,數(shù)字人引來了一波關注。結果小扎一年燒了100億美金,最后得出的元宇宙形象是下圖的質(zhì)量,大家頓時炸鍋了,畫質(zhì)和2007年的PC游戲一個水準。。。

圖片

從那時起,元宇宙的概念基本就破產(chǎn)了……

圖片

然而數(shù)字人卻沒有跟隨元宇宙沉寂,而是在AI時代,成為了一個非常重要的發(fā)展方向。

數(shù)字人簡介

數(shù)字人一般是指具有數(shù)字化外形的虛擬人,它和傳統(tǒng)的線下機器人不同,數(shù)字人依賴于現(xiàn)有的顯示設備而存在,比如手機、電腦、電視等。

數(shù)字人一般有以下的特點:

①具備人的外形:質(zhì)量肯定得比小扎的元宇宙形象好,現(xiàn)在的技術能做到跟真人非常類似。

②具備人的一些行為:數(shù)字人需要具備人類的一些最基本的能力,比如語言溝通、面部表情、動作等。

③具備一定的人類思維:數(shù)字人需要有一定的人類思維能力,不然無法進行簡單的交流。

一個最基礎的數(shù)字人,肯定是需要具備上述能力,才能夠有娛樂、商業(yè)價值。而AI時代的發(fā)展,使上述大家幻想中的要求,逐步變?yōu)榱爽F(xiàn)實。

一方面,AI繪畫、AI視頻、面部肌肉模擬等技術,使得人的外形、表情、動作等,越來越像真人。另一方面,AI大模型的發(fā)展,也讓數(shù)字人的思維能力,有了質(zhì)的飛躍。

數(shù)字人在AI領域的第一個重要出圈的案例,就是今年3月份,有人用AI技術“復活”了自己已經(jīng)過世的奶奶。通過AI繪畫、AI視頻技術實現(xiàn)了外形和互動,通過接入大模型并且定向訓練了已過世奶奶的數(shù)據(jù)資料,讓數(shù)字人能夠以非常類似作者奶奶的身份和思維跟作者進行溝通。

圖片

這個案例非常重要,一方面讓大家看到了數(shù)字人的最新技術,已經(jīng)真的可以生產(chǎn)出非常逼真的效果,某種意義上能讓人永生;另一方面,數(shù)字人如此好的效果,也讓大家開始關注它在商業(yè)上的可能性。

兩類數(shù)字人

組成一個數(shù)字人,一般由五個模塊組成,包含:人物形象、語音生成、動畫生成、音視頻合成、互動交互。這里又以交互模塊的差異性,可以將數(shù)字人分為兩種,即非交互型數(shù)字人和交互型數(shù)字人。

圖片

(圖源:2020年虛擬數(shù)字人發(fā)展白皮書)

非交互型數(shù)字人是最簡單的數(shù)字人類型,將人物形象和語音合成視頻即可。這類數(shù)字人國內(nèi)外的產(chǎn)品有很多,還有一款開源項目SadTalker,我之前也分享過制作的整合包,感興趣的朋友可以出門左拐看看。

圖片

(圖源:2020年虛擬數(shù)字人發(fā)展白皮書)

這類數(shù)字人制作簡單,可以生成一些有趣的短視頻內(nèi)容,然而這類數(shù)字人也有一定的缺陷。

一方面,這類數(shù)字人生成的速度較慢,生成一條1分鐘左右的視頻往往需要30分鐘以上,如此長的時間就決定了這類數(shù)字人不可能拿來直播,因為沒有直播間能接受30分鐘以上的延時(一個觀眾問了一個問題,結果30分鐘后數(shù)字人才能回復,黃花菜都涼了)。

另外,生成的算法是比較低端的,僅僅可以基于圖片來生成動嘴視頻,肢體和頭部都沒有更多的交互,效果一般。

交互型數(shù)字人才是真正意義上大家理想中的數(shù)字人,這種類型的數(shù)字人,預先通過AI技術采集和訓練真人形象,可通過文本驅動生成語音和對應動畫,業(yè)內(nèi)將此模型稱為TTSA(Text To Speech & Animation)人物模型。而且,交互型數(shù)字人,還能接入AI大模型,自動讀取并理解外界輸入信息,然后交給大模型來思考和回答并輸出文本,之后AI算法再驅動人物模型生成相應的語音與動作來使數(shù)字人跟用戶互動。

交互型數(shù)字人,能做到非常低的延時與觀眾進行交互,跟平常大家聊天的感覺沒差別,而且定制訓練的大模型也可以回答出非常專業(yè)的問題,并且數(shù)字人的肢體動作也非常自然。

圖片

(圖源:2020年虛擬數(shù)字人發(fā)展白皮書)

交互型數(shù)字人線下采集數(shù)據(jù),用于生成逼真的人物模型:可以去線下的場地采集圖像素材和聲音素材,目前也能做到遠程采集視頻素材和聲音素材,一般只需要幾分鐘的素材,即可用于訓練效果逼真的數(shù)字人形象。

圖片

生成數(shù)字人模型后,就可以應用于各種各樣的娛樂&商業(yè)場景:

快速持續(xù)生成短視頻內(nèi)容,搭建IP建立矩陣流量池。

圖片

數(shù)字人直播:可以做到7*24小時低成本直播,互動性跟真人主播接近,且通過技術手段防止被封,成本大幅降低,效率大幅提升。

圖片

數(shù)字人的優(yōu)勢:工資成本低、場地成本低、設備成本低、直播時長長,不會生病也不用交五險一金……

圖片

數(shù)字人+大模型:交互型數(shù)字人,接入了AI大模型,可以針對特定的領域進行訓練,比如服裝店主,可以將自己店鋪的商品信息喂給AI大模型,后續(xù)數(shù)字人在直播時,可以回答觀眾提的特定的問題,甚至可以作為智能客服使用。

圖片

以下是數(shù)字人直播間的一個案例:

上述所描述的交互型數(shù)字人產(chǎn)品,是由我多年的好友公司研發(fā)的AI產(chǎn)品,如果你對數(shù)字人感興趣,對于AI時代的商業(yè)模式感興趣,歡迎大家掃碼聯(lián)系,也可以私聊我了解細節(jié)。

圖片

AI人工智能時代已經(jīng)到來,互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)時代,均產(chǎn)生了很多商業(yè)機會,讓很多人實現(xiàn)階層躍升。AI時代這次機會,你還想錯過嗎?


作者的公眾號二維碼丨掃一掃,關注我

關注我,不懂技術也可以學習AI。

資深大廠產(chǎn)品經(jīng)理Glen,鵝廠、字節(jié)、華為工作經(jīng)歷。

讓一部分人,看見AI并連接。

2

相關文章