在线a亚洲视频播放在线观看,伊人久久大香线蕉av综合

亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

首頁(yè) > 資訊 > 文章

2024-05-15 17:22

詳解騰訊混元文生圖大模型開(kāi)源大模型：國(guó)內(nèi)首個(gè)中文原生的DiT架構(gòu)圖像生成模型

以下文章來(lái)自于丨機(jī)器之心

中文 AI 社區(qū)迎來(lái)了一個(gè)好消息：與 Sora 同架構(gòu)的開(kāi)源文生圖大模型來(lái)了！

5 月 14 日，騰訊宣布旗下混元文生圖大模型全面升級(jí)并全面開(kāi)源，目前已在 Hugging Face 平臺(tái)及 GitHub 上發(fā)布，包含模型權(quán)重、推理代碼、模型算法等完整模型，可供企業(yè)與個(gè)人開(kāi)發(fā)者免費(fèi)商用。

官網(wǎng)地址：https://dit.hunyuan.tencent.com/

GitHub 項(xiàng)目地址：https://github.com/Tencent/HunyuanDiT

Hugging Face 模型地址：https://huggingface.co/Tencent-Hunyuan/HunyuanDiT

技術(shù)報(bào)告地址：https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf

據(jù)了解，這是業(yè)內(nèi)首個(gè)中文原生的 DiT 架構(gòu)文生圖開(kāi)源模型，支持中英文雙語(yǔ)輸入及理解，參數(shù)量 15 億。

升級(jí)后的混元文生圖大模型采用了與 Sora 一致的 DiT 架構(gòu)，即全新的 Hunyuan-DiT 架構(gòu)，不僅可以支持文生圖，也可以作為視頻等多模態(tài)視覺(jué)生成的基礎(chǔ)。

為了全面比較 Hunyuan-DiT 與其他文生圖模型的生成能力，騰訊混元團(tuán)隊(duì)構(gòu)建 4 個(gè)維度的測(cè)試集，邀請(qǐng)超過(guò) 50 名專(zhuān)業(yè)評(píng)估人員進(jìn)行評(píng)估，包括文本圖像一致性、排除 AI 偽影、主題清晰度、審美。

從下表結(jié)果可以看到，采用 Hunyuan-DiT 架構(gòu)的騰訊混元文生圖模型效果遠(yuǎn)超開(kāi)源的 Stable Diffusion 模型，是目前效果最好的開(kāi)源文生圖模型，整體能力屬于國(guó)際領(lǐng)先水平。

與其他 SOTA 模型的比較。

與這些 SOTA 模型的定性比較結(jié)果如下圖所示。

騰訊混元文生圖要做開(kāi)源模型 No.1

大模型的優(yōu)異表現(xiàn)，離不開(kāi)領(lǐng)先的技術(shù)架構(gòu)。升級(jí)后的騰訊混元文生圖大模型采用了全新的 DiT 架構(gòu)（DiT 即 Diffusion With Transformer），這是 OpenAI Sora 和 Stable Diffusion 3 的同款架構(gòu)和關(guān)鍵技術(shù)，是一種基于 Transformer 架構(gòu)的擴(kuò)散模型。

過(guò)去，視覺(jué)生成擴(kuò)散模型主要基于 U-Net 架構(gòu)，但隨著參數(shù)量增加，基于 Transformer 架構(gòu)的擴(kuò)散模型展現(xiàn)了更好的擴(kuò)展性，有助于進(jìn)一步提升模型生成質(zhì)量及效率。Sora 很好地說(shuō)明了這一點(diǎn)。

騰訊混元是業(yè)界最早探索并應(yīng)用大語(yǔ)言模型結(jié)合 DiT 結(jié)構(gòu)的文生圖模型之一。從 2023 年 7 月起，騰訊混元文生圖團(tuán)隊(duì)就明確了基于 DiT 架構(gòu)的模型方向，并啟動(dòng)了新一代模型研發(fā)。今年初，混元文生圖大模型已全面升級(jí)為 DiT 架構(gòu)。

Hunyuan-DiT 的模型結(jié)構(gòu)如下圖 7 所示，采用了創(chuàng)新的網(wǎng)絡(luò)架構(gòu)，結(jié)合了雙語(yǔ) CLIP 和多語(yǔ)言 T5 編碼器，通過(guò)精心設(shè)計(jì)的數(shù)據(jù)管道進(jìn)行訓(xùn)練和優(yōu)化，支持多輪對(duì)話，能夠根據(jù)上下文生成并完善圖像。

在 DiT 架構(gòu)之上，騰訊混元團(tuán)隊(duì)支持了中英雙語(yǔ)文本提示生成圖像，并在算法層面優(yōu)化模型的長(zhǎng)文本理解能力，能夠支持最多 256 字符的內(nèi)容輸入，達(dá)到行業(yè)領(lǐng)先水平。

此外，混元文生圖大模型在算法層面創(chuàng)新實(shí)現(xiàn)了多輪生圖和對(duì)話能力，可實(shí)現(xiàn)在一張初始生成圖片的基礎(chǔ)上，通過(guò)自然語(yǔ)言描述進(jìn)行調(diào)整，從而達(dá)到更滿意的效果。

更多多輪對(duì)話生成示例如下圖所示。

中文原生也是騰訊混元文生圖大模型的一大亮點(diǎn)。此前，像 Stable Diffusion 等主流開(kāi)源模型核心數(shù)據(jù)集以英文為主，對(duì)中國(guó)的語(yǔ)言、美食、文化、習(xí)俗都理解不夠。

作為首個(gè)中文原生的 DiT 模型，混元文生圖具備了中英文雙語(yǔ)理解及生成能力，在古詩(shī)詞、俚語(yǔ)、傳統(tǒng)建筑、中華美食等中國(guó)元素的生成上表現(xiàn)出色。我們可以看以下一些生成示例。

騰訊混元文生圖還更擅長(zhǎng)細(xì)粒度文本提示生成。

評(píng)測(cè)結(jié)果顯示，新一代騰訊混元文生圖大模型視覺(jué)生成整體效果，相比前代提升超過(guò)了 20%，不僅在語(yǔ)義理解、畫(huà)面質(zhì)感與真實(shí)性方面全面提升，而且在多輪對(duì)話、多主體、中國(guó)元素、真實(shí)人像生成等場(chǎng)景下效果提升顯著。

騰訊混元選擇全面開(kāi)源文生圖模型的理由

騰訊混元文生圖能力，已經(jīng)廣泛被用于素材創(chuàng)作、商品合成、游戲出圖等多項(xiàng)業(yè)務(wù)及場(chǎng)景中。今年初，騰訊廣告基于騰訊混元大模型，發(fā)布了一站式 AI 廣告創(chuàng)意平臺(tái)騰訊廣告妙思，可為廣告主提供文生圖、圖生圖、商品背景合成等多場(chǎng)景創(chuàng)意工具，有效提高了廣告生產(chǎn)及投放效率。

騰訊混元文生圖大模型的開(kāi)源，填補(bǔ)了中文原生 DiT 文生圖架構(gòu)的缺失，有助于更多的開(kāi)發(fā)者和創(chuàng)作者參與進(jìn)來(lái)，一起探索、共創(chuàng)基于 DiT 架構(gòu)的視覺(jué)生成生態(tài)，更好地去驗(yàn)證、挖掘這個(gè)技術(shù)架構(gòu)的潛力。

騰訊文生圖負(fù)責(zé)人蘆清林表示：「騰訊混元文生圖的研發(fā)思路就是實(shí)用，堅(jiān)持從實(shí)踐中來(lái)，到實(shí)踐中去。此次把最新一代模型完整開(kāi)源出來(lái)，是希望與行業(yè)共享騰訊在文生圖領(lǐng)域的實(shí)踐經(jīng)驗(yàn)和研究成果，豐富中文文生圖開(kāi)源生態(tài)，共建下一代視覺(jué)生成開(kāi)源生態(tài)，推動(dòng)大模型行業(yè)加速發(fā)展?！?/p>

基于騰訊開(kāi)源的文生圖模型，開(kāi)發(fā)者及企業(yè)無(wú)需從頭訓(xùn)練，即可以直接用于推理，并可基于混元文生圖打造專(zhuān)屬的 AI 繪畫(huà)應(yīng)用及服務(wù)，能夠節(jié)約大量人力及算力。透明公開(kāi)的算法，也讓模型的安全性和可靠性得到保障。

此外，基于開(kāi)放、前沿的混元文生圖基礎(chǔ)模型，也有利于在以 Stable Diffusion 等為主的英文開(kāi)源社區(qū)之外，豐富以中文為主的文生圖開(kāi)源生態(tài)，形成更多樣原生插件，推動(dòng)中文文生圖技術(shù)研發(fā)和應(yīng)用。

查看相關(guān)話題： #騰訊 #混元大模型 #ai繪畫(huà)

相關(guān)文章

Altman

工作人員

AI奇點(diǎn)網(wǎng)主編

作者已發(fā)布 426 篇文章

近期文章

OpenAI宣布企業(yè)架構(gòu)重組丨可靈發(fā)布V1.5圖像模型，推出「AI 模特」丨愛(ài)詩(shī)科技PixVerse V3.5版本上線

深度求索發(fā)布DeepSeek-V3開(kāi)源模型丨理想汽車(chē)轉(zhuǎn)型 AI 公司丨雷軍親自招兵買(mǎi)馬，小米開(kāi)啟自研大模型訓(xùn)練

階躍星辰發(fā)布Step-1X-Medium圖像模型丨ChatGPT Search被曝安全問(wèn)題丨馬斯克：明年底AI將超越人類(lèi)個(gè)體智力

2024谷歌I/O開(kāi)發(fā)者大會(huì)回顧：瘋狂2小時(shí)新品放送，從大模型到軟件應(yīng)用到算力TPU，正面硬剛GPT-4o與Sora

10年緣分說(shuō)散就散：Ilya Sutskever官宣從OpenAI離職，麾下的“超級(jí)對(duì)齊團(tuán)隊(duì)”負(fù)責(zé)人也一并離職