谷歌發(fā)布3D建模生成大模型「CAT3D」:開(kāi)局一張圖,1分鐘構(gòu)建精美3D建模成像
AI奇點(diǎn)網(wǎng)5月24日?qǐng)?bào)道丨近日,谷歌在GitHub平臺(tái)發(fā)布了一款3D生成模型「CAT3D」,通過(guò)使用多視角擴(kuò)散模型來(lái)創(chuàng)建3D場(chǎng)景。
「CAT3D」通過(guò)使用多視角擴(kuò)散模型來(lái)創(chuàng)建3D場(chǎng)景,提供了一種快速且高效的方法來(lái)生成3D內(nèi)容。這次大模型的發(fā)布,彰顯了3D影像重建領(lǐng)域取得了顯著的技術(shù)進(jìn)展。
在過(guò)去,3D重建場(chǎng)景是一項(xiàng)非常繁瑣而復(fù)雜的工作,需要耗費(fèi)巨大的人力物力算力?,F(xiàn)如今,用戶(hù)只需要提供一些包含具體對(duì)象元素的圖片,「CAT3D」就能夠利用這些圖片生成新的視角,然后通過(guò)一個(gè)強(qiáng)大的3D重建流程,將這些視角轉(zhuǎn)換成一個(gè)可以實(shí)時(shí)渲染的3D表示。
據(jù)介紹,「CAT3D」能夠在一分鐘內(nèi)完成整個(gè)3D場(chǎng)景的創(chuàng)建,這比現(xiàn)有的單圖像和少視圖3D場(chǎng)景創(chuàng)建方法要快得多。
只需在模型內(nèi)上傳一定數(shù)量的圖像,就可以這些圖像為條件的多視圖擴(kuò)散模型來(lái)生成場(chǎng)景的新視圖。生成的視圖被饋送到強(qiáng)大的3D重建管線(xiàn),生成可以支持交互式實(shí)時(shí)渲染的3D成像文檔??偺幚頃r(shí)間(包括視圖生成和3D重建)僅僅只需一分鐘而已。
該模型不僅支持單圖像輸入,還能夠處理多圖像輸入,從而生成更加豐富和詳細(xì)的3D場(chǎng)景。CAT3D利用多視圖擴(kuò)散模型,可以根據(jù)任意數(shù)量的輸入圖像和目標(biāo)新視圖生成高度一致的場(chǎng)景新視圖。
與競(jìng)爭(zhēng)對(duì)手相比,「CAT3D」輸出的3D圖像渲染速度又快又清晰,細(xì)節(jié)保留程度較高,重復(fù)修改的工作量少。也不會(huì)出現(xiàn)明顯的空間景深誤差與視覺(jué)上的不和諧。
谷歌表示,生成的新視圖可以作為3D重建技術(shù)的輸入,實(shí)現(xiàn)從任何視點(diǎn)實(shí)時(shí)渲染3D表示,這對(duì)于虛擬現(xiàn)實(shí)、游戲開(kāi)發(fā)和建筑設(shè)計(jì)等領(lǐng)域非常有用。
主要特點(diǎn):
項(xiàng)目主頁(yè):
技術(shù)論文: