中文字幕av久久激情亚洲精品,伊人精品成人久久综合

亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

首頁(yè) > 資訊 > 文章

2023-12-14 14:49

斯坦福大學(xué)吳佳俊團(tuán)隊(duì)×谷歌打造3D場(chǎng)景生成模型WonderJourney：文本/圖像生成3D無(wú)限世界，顛覆游戲開(kāi)發(fā)行業(yè)

斯坦福吳佳俊團(tuán)隊(duì)打造AI版“愛(ài)麗絲夢(mèng)游仙境”巨作！

僅用一張圖or一段文字就能沿相機(jī)軌跡生成無(wú)限連貫3D場(chǎng)景：

只需輸入一段古詩(shī)詞，詩(shī)中場(chǎng)景立刻映入眼簾：

而且還是來(lái)回式的，可以再倒回去的那種：

同一起點(diǎn)可以進(jìn)入不同場(chǎng)景：

真實(shí)場(chǎng)景也可以，其中的人物陰影等細(xì)節(jié)都毫無(wú)違和感：

方塊世界更不在話下，仿佛打開(kāi)了《我的世界》：

這項(xiàng)工作名為WonderJourney，由斯坦福吳佳俊團(tuán)隊(duì)和谷歌研究院聯(lián)合打造。

除了可以從任意位置開(kāi)始，無(wú)限生成多樣化且連貫的3D場(chǎng)景，WonderJourney根據(jù)文本描述生成時(shí)，可控性也很高。

只要將鼠標(biāo)懸停在視頻上，就可以暫停自動(dòng)滑動(dòng)。

這項(xiàng)工作的發(fā)布讓網(wǎng)友們直呼“難以置信”?——項(xiàng)目代碼還沒(méi)正式發(fā)布，就收獲了200+星：

AI研究員Xander Steenbrugge驚訝之余表示：這是生成式AI和傳統(tǒng)3D技術(shù)的完美結(jié)合。

要知道，之前的工作都是專注于單一類型場(chǎng)景，WonderJourney可謂打開(kāi)了新世界的大門。

那這究竟是如何做到的？

開(kāi)啟3D奇妙之旅

生成無(wú)限連貫3D場(chǎng)景要解決的一大難題是：如何在保持元素多樣性的同時(shí)，生成符合邏輯的場(chǎng)景元素組合。

這當(dāng)中需要判斷將要生成的元素空間位置的合理性，還需要處理好新舊場(chǎng)景的遮擋關(guān)系、視差等幾何關(guān)系。

可以看到WonderJourney在這方面的處理上非常細(xì)致：

無(wú)論什么風(fēng)格都能輕松駕馭：

能夠做到這些，關(guān)鍵在于WonderJourney的模塊化流程。

總的生成過(guò)程分為“確定要生成什么對(duì)象”、“把這些對(duì)象放在哪里”、“這些場(chǎng)景如何在幾何上連接”三步。

需要以下三個(gè)模塊配合完成：

Scene description generation：使用大語(yǔ)言模型(LLM)根據(jù)當(dāng)前場(chǎng)景生成下一個(gè)場(chǎng)景的文本描述。
Visual scene generation：將文本描述轉(zhuǎn)換為3D點(diǎn)云表示的場(chǎng)景。
Visual validation：使用VLM驗(yàn)證生成的場(chǎng)景，檢測(cè)到不合理的結(jié)果啟動(dòng)重新生成。

具體來(lái)說(shuō)，在Scene description generation模塊，使用預(yù)訓(xùn)練好的LLM輸入當(dāng)前場(chǎng)景描述，通過(guò)自回歸生成下一個(gè)場(chǎng)景，其中包含風(fēng)格、物體、背景三部分的描述。

此外，還要將自然語(yǔ)言描述進(jìn)行詞類過(guò)濾，只保留名詞和形容詞;每生成一個(gè)新場(chǎng)景描述，會(huì)更新場(chǎng)景描述記憶。

在Visual scene generation模塊，先是將當(dāng)前圖像/文本轉(zhuǎn)換為3D點(diǎn)云表示。

然后使用depth refinement增強(qiáng)對(duì)象邊界的depth不連續(xù)性，通俗來(lái)講就是讓邊界兩側(cè)的深度對(duì)比更加明顯，從而使過(guò)渡更加逼真。

之后使用text-guided inpainting基于文本描述生成新場(chǎng)景圖像。

研究人員還設(shè)計(jì)了depth consistency loss和re-rendering consistency機(jī)制改進(jìn)新舊場(chǎng)景遮擋和點(diǎn)云對(duì)齊。

最后Visual validation模塊，使用VLM提示檢測(cè)生成圖像中的不好的結(jié)果，比如畫(huà)框、模糊等，如果檢測(cè)到則重新生成場(chǎng)景。

值得一提的是，這三個(gè)模塊都可用最先進(jìn)的預(yù)訓(xùn)練模型實(shí)現(xiàn)、替換，所以不需要任何訓(xùn)練。

實(shí)驗(yàn)測(cè)試

由于連貫3D場(chǎng)景生成是一個(gè)沒(méi)有現(xiàn)有可用數(shù)據(jù)集的新任務(wù)，所以研究人員在實(shí)驗(yàn)中使用了自己拍攝的照片、來(lái)自在線無(wú)版權(quán)的照片以及生成的圖片進(jìn)行了評(píng)估。

此外，使用了兩種最先進(jìn)的連續(xù)視圖生成方法作為基準(zhǔn)：基于圖像的InfiniteNature-Zero和基于文本的SceneScape。

定性結(jié)果展示了從不同類型輸入生成的連貫3D場(chǎng)景序列效果，表明方法可以從任何輸入開(kāi)始生成：

此外，同一輸入可生成不同輸出，表明方法具有多樣性：

研究人員還從生成效果多樣性、視覺(jué)質(zhì)量、場(chǎng)景復(fù)雜度和有趣度這4個(gè)方面進(jìn)行了人類偏好評(píng)估。

結(jié)果WonderJourney方法明顯優(yōu)于InfiniteNature-Zero、SceneScape。

查看相關(guān)話題： #AI建模 #AI圖像生成 #AI大模型 #谷歌

相關(guān)文章

量子位

原創(chuàng)作者

知名AI科技媒體

作者已發(fā)布 131 篇文章

近期文章

OpenAI滿血版o1劇透：數(shù)學(xué)代碼能力再破天花板，已開(kāi)啟測(cè)試評(píng)估

「國(guó)產(chǎn)Sora」最新升級(jí)！《沙丘》級(jí)大片視效，人人都能免費(fèi)體驗(yàn)

我們用豆包視頻大模型，生成了AI版的《紅樓夢(mèng)》MV

最強(qiáng)代碼生成工具上線！基于谷歌Gemini開(kāi)發(fā)的Duet AI for Developers官宣免費(fèi)：支持20+語(yǔ)言，編程效率提升多達(dá)30%

ChatGPT“變懶”：回復(fù)信息越來(lái)越簡(jiǎn)短，網(wǎng)友調(diào)查背后原因發(fā)現(xiàn)，AI機(jī)器人通過(guò)機(jī)器學(xué)習(xí)可能正在給自己“放寒假”！