智象未來團(tuán)隊(duì)研發(fā)成果獲ICML 2025收錄!圖像生成更有“全局視野”
智象未來團(tuán)隊(duì)提出全新層級(jí)自回歸生成范式 Hierarchical Masked Autoregressive models (Hi-MAR),有效解決自回歸圖像生成中結(jié)構(gòu)失真問題。該研究已被 ICML 2025 收錄,并在多個(gè)圖像生成任務(wù)中取得領(lǐng)先性能。
現(xiàn)有自回歸圖像生成模型存在缺乏全局結(jié)構(gòu)建模能力、訓(xùn)練-推理分布不一致、尺度引導(dǎo)缺失等問題。Hi - MAR 借鑒人類繪畫過程,采用自頂向下層次化生成范式,還引入多尺度聯(lián)合訓(xùn)練策略等。實(shí)驗(yàn)顯示,其在圖像質(zhì)量和語(yǔ)義一致性上優(yōu)于主流方法,可以顯著提升模型的全局感知能力與生成質(zhì)量。
本次發(fā)表的論文《Hierarchical Masked Autoregressive Models with Low-Resolution Token Pivots》,展示了團(tuán)隊(duì)在多模態(tài)生成式基礎(chǔ)架構(gòu)設(shè)計(jì)領(lǐng)域的前沿探索。這一全新的層級(jí)自回歸生成架構(gòu) Hi-MAR,為構(gòu)建具備“全局感知+局部細(xì)化”能力的生成基礎(chǔ)架構(gòu)提供了新的范式,同時(shí)它也是HiDream系列開源模型家族重要的一員,為下一代多模態(tài)生成式基礎(chǔ)架構(gòu)的技術(shù)演進(jìn)帶來更多的可能性!