亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

首頁(yè)  >  資訊  >  文章
2024-07-29 14:49

日均tokens使用量超5000億,AI生圖玩法猛猛上新:豆包大模型為什么越來(lái)越「香」了?

2024 年的 AI 圖像生成技術(shù),又提升到了一個(gè)新高度。

技術(shù)的飛速迭代,讓這一領(lǐng)域的商業(yè)化落地進(jìn)入加速階段。前有 Midjourney v6 史詩(shī)級(jí)更新,后有開(kāi)源巨頭 Stable Diffusion 3 獨(dú)領(lǐng)風(fēng)騷,而 DALL?E 3 背靠 ChatGPT 這棵「大樹(shù)」,也收獲了眾多用戶的關(guān)注。

當(dāng)然了,在這條賽道上,來(lái)自國(guó)內(nèi)的選手毫不遜色。

近日,國(guó)產(chǎn)大模型「頂流」—— 字節(jié)跳動(dòng)豆包大模型,迎來(lái)一場(chǎng)集中放送:

在 2024 火山引擎 AI 創(chuàng)新巡展成都站活動(dòng)上,豆包大模型團(tuán)隊(duì)公布了豆包大模型的最新進(jìn)展,以及文生圖模型、語(yǔ)音模型等垂直模型的新升級(jí)。

與此同時(shí),豆包大模型家族的最新成員 ——「豆包?圖生圖模型」正式面世,一口氣上新了 50 多項(xiàng)玩法。

作為國(guó)產(chǎn)大模型中的實(shí)力之作,豆包大模型在今年 5 月通過(guò)火山引擎正式對(duì)外提供服務(wù)。盡管入場(chǎng)時(shí)間不是最早,但今天的豆包大模型已經(jīng)是國(guó)內(nèi)使用量最大、應(yīng)用場(chǎng)景最豐富的大模型之一。

這場(chǎng)活動(dòng)中,火山引擎還透露了一個(gè)數(shù)字:截至 2024 年 7 月,豆包大模型的日均 tokens 使用量已經(jīng)超過(guò) 5000 億。

與此同時(shí),豆包大模型的技術(shù)實(shí)力在短時(shí)間內(nèi)也經(jīng)歷了多次迭代。在多個(gè)公開(kāi)評(píng)測(cè)集以及專(zhuān)業(yè)的第三方評(píng)測(cè)中,豆包通用模型 pro 均表現(xiàn)出眾,是得分最高的國(guó)產(chǎn)大模型。

圖片

至于豆包大模型的「功力」究竟練到了哪一層?我們不妨體驗(yàn)一把再下結(jié)論。

國(guó)產(chǎn) AI 猛猛上新

豆包大模型為什么能俘獲用戶的心?

我們就從剛剛更新的圖像生成方面來(lái)考驗(yàn)一下豆包大模型。對(duì) AIGC 應(yīng)用接觸比較多的用戶可能都有一個(gè)感受:AI 圖像生成類(lèi)產(chǎn)品越來(lái)越卷,彼此之間也越來(lái)越難拉開(kāi)差距。

這種直觀感受的變化,幾乎能完全對(duì)應(yīng)上底層技術(shù)的演進(jìn)節(jié)點(diǎn)。與一些早期 GAN 模型的生成水準(zhǔn)相比,如今的圖像生成質(zhì)量已經(jīng)讓大部分人覺(jué)得「真假難辨」。在這個(gè)過(guò)程中,學(xué)界和業(yè)界對(duì)圖像生成質(zhì)量的評(píng)估維度也發(fā)生了巨大變化:像 FID Score 這樣的指標(biāo)已經(jīng)不足以全面反映模型能力,人類(lèi)評(píng)估成為了評(píng)估圖像生成質(zhì)量的黃金標(biāo)準(zhǔn)。盡管經(jīng)濟(jì)和時(shí)間成本更高,但這種方式可以提供更加細(xì)微且可解釋的感知反饋。

以「文生圖」方向?yàn)槔F(xiàn)階段的目標(biāo)可以總結(jié)為對(duì)綜合維度的全面提升,具體可拆分為圖像美感、圖文一致性、內(nèi)容創(chuàng)造、復(fù)雜度適應(yīng)性四個(gè)維度。在這幾方面,豆包?文生圖都達(dá)到了業(yè)界較高水準(zhǔn)。

在用戶感受最強(qiáng)烈的「圖文匹配」維度上,豆包?文生圖模型不斷進(jìn)化,比如很好地理解多數(shù)量主體、主客體關(guān)系、人物構(gòu)造和空間構(gòu)造等信息:

Prompt:古代日本鬼機(jī)甲、中國(guó)朋克、太空歌劇、科幻小說(shuō)、古代未來(lái)主義、神秘、明亮、不對(duì)稱(chēng)密集構(gòu)圖、32k 超高清、電影光、氣氛光、電影、柔和的調(diào)色板、超現(xiàn)實(shí)、自由度、自然體積光。

圖片

而在「畫(huà)面效果美感」層面,豆包?文生圖模型非常善于從光影明暗、氛圍色彩和人物美感方面進(jìn)行畫(huà)面質(zhì)感提升:

Prompt:OC 渲染,3D 設(shè)計(jì),長(zhǎng)發(fā)小女孩,人臉朝著鏡頭,中心構(gòu)圖,帽子上長(zhǎng)滿鮮花,輪廓清晰,面部細(xì)節(jié)放大,帽子細(xì)節(jié)放大,畫(huà)質(zhì)高清,超清畫(huà)質(zhì),深景深,背景是花海

圖片

此外,作為國(guó)產(chǎn) AI 精品之作,面對(duì)中國(guó)人物、物品、朝代、美食、藝術(shù)風(fēng)格等元素,豆包?文生圖模型也展現(xiàn)出了更加深刻的理解力。

Prompt:超寫(xiě)實(shí)畫(huà)風(fēng),唐代,長(zhǎng)安,元宵節(jié)夜市,唐代侍女,燈火輝煌,細(xì)節(jié)完美,特寫(xiě),熱鬧非凡,超高清,4K

圖片

Prompt:國(guó)風(fēng)水墨繪畫(huà),點(diǎn)彩、肌理磨砂、陳家泠、大面留白的構(gòu)圖,高清16k故宮遠(yuǎn)景,雪景、流暢建筑結(jié)構(gòu),層次,白色主色,淡雅

圖片

基于雙語(yǔ)大模型文本編碼器,豆包?文生圖模型對(duì)英文 Pormpt 的理解同樣精準(zhǔn):

Prompt:butterfly candle, in the style of y2k aesthetic, pop-culture-infused, jewelry by painters and sculptors, text and emoji installations, money themed, playful animation, humble charm

圖片

Prompt:World of Warcraft, outdoor scene, green grassland with a river flowing through it, rocky cliffside with a cave entrance, a small wooden bridge over the waterway, lush trees and wildflowers on both sides of the stream, white clouds in a blue sky, fantasy landscape concept art style, game illustration design, concept design for world building, concept art in the style of game illustration design, 3D

圖片

不久之后,豆包?文生圖模型還將升級(jí)到 2.0 版本。豆包視覺(jué)團(tuán)隊(duì)表示,新版本將比當(dāng)前模型的生成效果有 40% 的提升,對(duì)比當(dāng)前版本,圖文一致性和美感會(huì)有大幅提升。

與文生圖略有不同,在圖像美感和結(jié)構(gòu)等因素之外,圖生圖更算是一種應(yīng)用模型,質(zhì)量評(píng)估更加關(guān)注「一致性」和「相似度」兩個(gè)維度。豆包?圖生圖模型的能力涵蓋「AI 寫(xiě)真」、「圖像風(fēng)格化」、「擴(kuò)圖 / 局部重繪」三個(gè)主要方向,共提供了 50 余種風(fēng)格玩法。

圖片

「AI 寫(xiě)真」算是以圖生圖方向中使用頻率非常高的一種玩法,豆包?圖生圖模型的一大亮點(diǎn)是高度還原人物特征,能夠精準(zhǔn)捕捉輪廓、表情、姿態(tài)等多維特征,輕松生成定制化寫(xiě)真:

圖片

豆包?圖生圖模型還能具備優(yōu)秀的圖片擴(kuò)展、局部重繪和涂抹能力,在邏輯合理的前提下,還能充滿想象力。

比如在下方的任務(wù)中,用戶想要實(shí)現(xiàn)自然的局部消除,豆包?圖生圖模型生成結(jié)果也做到了平滑過(guò)渡:

圖片

對(duì)于只想局部進(jìn)行重繪的需求,豆包?圖生圖模型能夠精準(zhǔn)修改圖像局部?jī)?nèi)容,無(wú)縫融合原有畫(huà)面。比如將粉色外套改為藍(lán)色牛仔外套:

圖片

面對(duì)下方的人物照背景擴(kuò)圖任務(wù),豆包?圖生圖模型給出的結(jié)果,實(shí)現(xiàn)了良好的景觀結(jié)構(gòu)及光線保持:

圖片

豆包大模型,如何躋身圖像生成賽道上游?

感受完這一波 Demo,我們好奇:是從什么時(shí)候開(kāi)始,豆包大模型在圖像生成方面有了這么深厚的實(shí)力?

兩年前,Stable Diffusion 的橫空出世,宣告了 AIGC 時(shí)代的正式開(kāi)啟。隨后,AI 社區(qū)形成了巨大的迭代效應(yīng),基于各個(gè)版本 Stable Diffusion 開(kāi)源模型的 AI 圖像生成工具被迅速創(chuàng)造出來(lái),不斷刷新生成質(zhì)量和速度的上限。

不到半年后,DiT 架構(gòu)的提出,驗(yàn)證了 Scaling Law 在圖像生成領(lǐng)域同樣成立。越來(lái)越多的研究選擇用 Transformer 替代傳統(tǒng)的 U-Net,讓擴(kuò)散模型繼承了其他領(lǐng)域的最佳實(shí)踐和訓(xùn)練方法,增強(qiáng)了圖像生成模型的可擴(kuò)展性、魯棒性和效率,還提高了對(duì)文字提示的理解能力和圖像生成質(zhì)量,有效增加了定制化、生成內(nèi)容可控性方面的優(yōu)勢(shì)。

早在豆包大模型誕生前的幾年,字節(jié)跳動(dòng)就開(kāi)始關(guān)注圖像生成相關(guān)技術(shù),近兩年更是持續(xù)增加這方面的研發(fā)投入,保持著創(chuàng)新成果的高頻產(chǎn)出。這也是為什么豆包大模型一經(jīng)面世,就可以驚艷所有人。

Scaling Law 被驗(yàn)證帶來(lái)的另外一個(gè)啟示是,算力基礎(chǔ)提升、訓(xùn)練數(shù)據(jù)增加、數(shù)據(jù)質(zhì)量改善成為了圖像生成模型能力提升的關(guān)鍵因素。在這些方面,字節(jié)跳動(dòng)自研的豆包大模型在圖像生成能力進(jìn)化上具備天然優(yōu)勢(shì)。

但 Stable Diffusion 模型的訓(xùn)練和推理仍然是一個(gè)復(fù)雜且耗時(shí)的過(guò)程,比如,擴(kuò)散模型在推理過(guò)程中天然存在的多步數(shù)迭代去噪特性會(huì)導(dǎo)致較高的計(jì)算成本。如何在提升生成質(zhì)量的同時(shí)加快速度,成為了圖像生成領(lǐng)域的關(guān)鍵問(wèn)題。

豆包視覺(jué)團(tuán)隊(duì)提出了多項(xiàng)創(chuàng)新成果,從不同的維度嘗試解決這個(gè)難題,并將這些成果開(kāi)放給了 AI 社區(qū)。

一項(xiàng)代表性的成果是 Hyber-SD,這是一種新穎的擴(kuò)散模型蒸餾框架,在壓縮去噪步數(shù)的同時(shí)可保持接近無(wú)損的性能,在 SDXL 和 SD1.5 兩種架構(gòu)上都能在 1 到 8 步內(nèi)生成中實(shí)現(xiàn) SOTA 級(jí)別的圖像生成。(https://huggingface.co/ByteDance/Hyper-SD)

另外一項(xiàng)研究 SDXL- Lightning則通過(guò)一種名為「漸進(jìn)式對(duì)抗蒸餾」(Progressive Adversarial Distillation)的創(chuàng)新技術(shù),實(shí)現(xiàn)了生成質(zhì)量和生成速度的雙重提升:僅需短短 2 步或 4 步,模型就能生成極高質(zhì)量和分辨率的圖像,將計(jì)算和時(shí)間成本降低了十倍,而且能在實(shí)現(xiàn)更高分辨率和更佳細(xì)節(jié)的同時(shí)保持良好的多樣性和圖文匹配度。(https://huggingface.co/ByteDance/SDXL-Lightning)

同時(shí),豆包視覺(jué)團(tuán)隊(duì)還提出了一個(gè)利用反饋學(xué)習(xí)全面增強(qiáng)擴(kuò)散模型的統(tǒng)一框架UniFL。通過(guò)整合感知、解耦和對(duì)抗性反饋學(xué)習(xí),這個(gè)框架不僅在生成質(zhì)量和推理加速方面表現(xiàn)優(yōu)秀,還在 LoRA、ControlNet、AnimateDiff 等各類(lèi)下游任務(wù)中展現(xiàn)出了很好的泛化能力。(https://arxiv.org/pdf/2404.05595)

眾所周知,Stable Diffusion 的核心功能是從文本生成圖像,而 ControlNet、Adapter 等技術(shù)的融合,能夠在保留部分圖像信息的同時(shí)添加一些額外控制條件,引導(dǎo)生成與給定參考圖像「相似」的結(jié)果。這些技術(shù)的融合演變出了我們今天見(jiàn)到的各項(xiàng)「圖生圖」功能,并進(jìn)一步消除了 AI 圖像生成技術(shù)的商用門(mén)檻。

在這方面,豆包視覺(jué)團(tuán)隊(duì)同樣有深厚技術(shù)積累,僅今年就在國(guó)際計(jì)算機(jī)視覺(jué)頂會(huì) CVPR 中發(fā)表了十多篇論文,提出了數(shù)十項(xiàng)相關(guān)專(zhuān)利。

針對(duì)圖像Inpaint/Outpaint問(wèn)題,豆包視覺(jué)團(tuán)隊(duì)提出了 ByteEdit。關(guān)鍵創(chuàng)新包括三點(diǎn):首先,增大訓(xùn)練數(shù)據(jù)量級(jí),兼容自然圖像輸入、mask 輸入、無(wú) prompt 輸入,讓模型「看到」更多泛化場(chǎng)景;其次,引入一致性獎(jiǎng)勵(lì)模型,重點(diǎn)提升生成結(jié)果一致性,讓希望填充的區(qū)域和非填充區(qū)域更加的和諧;然后,引入漸進(jìn)式的分階段對(duì)抗訓(xùn)練策略,在不損失模型性能條件下實(shí)現(xiàn)速度的提升。(https://byte-edit.github.io)

針對(duì)ID 保持,豆包視覺(jué)團(tuán)隊(duì)提出了 PuLID,通過(guò)引入一個(gè)新的訓(xùn)練分支,在訓(xùn)練中加入了對(duì)比對(duì)齊損失和更精確的 ID 損失,讓 ID 適配器學(xué)習(xí)如何在注入的 ID 信息的同時(shí),減少對(duì)原模型行為的破壞,從而在保證較高 ID 相似度的同時(shí),兼顧編輯能力、風(fēng)格化能力以及畫(huà)面質(zhì)量等方面的效果。(https://www.hub.com/ToTheBeginning/PuLID)

針對(duì)IP 保持,豆包視覺(jué)團(tuán)隊(duì)提出了一種「參考圖 IP - 文本」解耦控制的通用場(chǎng)景 IP 定制化生成方法 RealCustom,對(duì)于任意開(kāi)放域物體或人物 IP 均可實(shí)現(xiàn)無(wú)需微調(diào)的實(shí)時(shí)定制化生成。(https://corleone-huang.github.io/realcustom/)

「更強(qiáng)模型、更低價(jià)格、更易落地」

短短兩年內(nèi),AI 在圖像生成上的持續(xù)進(jìn)步,打破了長(zhǎng)期存在的專(zhuān)業(yè)門(mén)檻,讓任何人都可以創(chuàng)造出高質(zhì)量的視覺(jué)作品,帶來(lái)了一場(chǎng)前所未有的革命。豆包大模型的圖像生成能力,已經(jīng)為字節(jié)跳動(dòng)旗下多個(gè)應(yīng)用提供技術(shù)支持,包括抖音、剪映、醒圖、即夢(mèng)、豆包、星繪。對(duì)于大眾來(lái)說(shuō),AIGC 已經(jīng)實(shí)實(shí)在在地改變了生活。

但從企業(yè)用戶的角度來(lái)說(shuō),這些最前沿的技術(shù)仍然存在一些應(yīng)用壁壘,涉及數(shù)據(jù)、人才、算力等多方面因素。對(duì)于各行各業(yè)的用戶來(lái)說(shuō),即使有了強(qiáng)大的開(kāi)源模型可供選擇,也需要解決計(jì)算資源、專(zhuān)業(yè)知識(shí)、模型微調(diào)等方面的挑戰(zhàn)。

成本的全方位降低,才是推動(dòng)大模型真正實(shí)現(xiàn)價(jià)值創(chuàng)造的關(guān)鍵因素。

自發(fā)布以來(lái),豆包大模型正在通過(guò)火山引擎源源不斷地向千行百業(yè)輸出技術(shù)能力,推動(dòng)大模型技術(shù)實(shí)現(xiàn)更廣泛深入的行業(yè)落地。

目前,包括豆包?文生圖模型和豆包?圖生圖模型在內(nèi),豆包大模型家族的成員數(shù)量已經(jīng)達(dá)到了 10 個(gè)。這些針對(duì)應(yīng)用場(chǎng)景細(xì)分的模型都會(huì)上線火山方舟,開(kāi)放給火山引擎的眾多企業(yè)客戶合作共創(chuàng)。

飛速增長(zhǎng)的使用量,也在幫助豆包大模型持續(xù)打磨自身能力。自 2024 年 5 月 15 日豆包大模型發(fā)布至今,短短兩個(gè)月內(nèi),平均每家企業(yè)客戶的日均 tokens 使用量已經(jīng)增長(zhǎng)了 22 倍。

圖片

豆包大模型家族「集體照」。

同時(shí),火山引擎提供了更豐富的核心插件、更強(qiáng)大的系統(tǒng)性能以及更優(yōu)質(zhì)的平臺(tái)體驗(yàn),企業(yè)可根據(jù)自身業(yè)務(wù)場(chǎng)景需求靈活選擇、快速落地。比如,依靠豆包?圖生圖模型,客戶利用幾張圖片即可訓(xùn)練專(zhuān)屬的數(shù)字分身。

在很多情況下,價(jià)格仍然是客戶的首要考慮因素?;鹕揭嬲锹氏葘⒆顝?qiáng)模型版本降價(jià)的行業(yè)先行者,以更強(qiáng)模型、更低價(jià)格滿足企業(yè)復(fù)雜業(yè)務(wù)場(chǎng)景需求,真正推動(dòng)大模型落地。

憑借充沛 GPU 算力資源池,并通過(guò)潮汐、混部等方式,實(shí)現(xiàn)資源的高利用率和極致降低成本,即使是在大模型價(jià)格戰(zhàn)越來(lái)越激烈的未來(lái),火山引擎所提供的大模型服務(wù)仍然保持著絕對(duì)吸引力。

中國(guó)公司正在開(kāi)啟大模型競(jìng)爭(zhēng)的下一章

轟轟烈烈的百模大戰(zhàn)之后,海內(nèi)外的大模型快速涌現(xiàn)。盡管有 OpenAI 等一系列強(qiáng)大的競(jìng)爭(zhēng)對(duì)手,但豆包大模型還是殺出了自己的一條路。

過(guò)去一段時(shí)間,人們喜歡談?wù)搰?guó)產(chǎn)大模型技術(shù)的追趕。從「追趕」到「媲美」,很多中國(guó)團(tuán)隊(duì)只用了一年、半年時(shí)間,這其中也包括豆包大模型團(tuán)隊(duì)。

短時(shí)間內(nèi)躋身圖像生成這條賽道的上游,與豆包大模型團(tuán)隊(duì)在研發(fā)和人才方面的投入密不可分。近幾年,越來(lái)越多頂尖大模型人才的加入,純粹極致的技術(shù)研究氛圍,大規(guī)模的研發(fā)資源投入,都是成就豆包這一國(guó)產(chǎn)大模型代表作的重要因素。

特別是在應(yīng)用場(chǎng)景優(yōu)勢(shì)的加持下,當(dāng)大模型被「用起來(lái)」的這天,人們看到了中國(guó)大模型走進(jìn)千行百業(yè)時(shí)的充足「后勁」。

可以期待的是,大模型這條賽道的競(jìng)爭(zhēng)正在開(kāi)啟新篇章,而在新的章節(jié)里,國(guó)產(chǎn)大模型將有機(jī)會(huì)書(shū)寫(xiě)更加濃墨重彩的一筆。

1
查看相關(guān)話題: #字節(jié)跳動(dòng) #豆包 #tokens

相關(guān)文章