亚洲男人av天堂午夜在,伊人情人色综合网站,中文字幕乱码永久免费

亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

首頁 > 測評 > 文章

2024-10-06 14:32

字節(jié)跳動發(fā)布豆包視頻生成模型，這效果讓我分不清AI虛擬與現(xiàn)實的邊界

以下文章轉(zhuǎn)載自丨IT之家

9 月 24 日，火山引擎 AI 創(chuàng)新巡展在深圳舉辦，帶來了豆包大模型的最新進展——豆包大模型家族迎來了新成員，這是針對 AI 視頻創(chuàng)作。

具體來說，火山引擎全新推出了豆包·視頻生成模型，以及豆包·音樂模型、同聲傳譯模型，同時還升級了通用語言模型、文生圖模型、語音模型，不斷增強各類模態(tài)以及規(guī)?；恼{(diào)用量，讓豆包大模型“更強模型、更低價格、更易落地”的優(yōu)勢持續(xù)凸顯。

此外，多家行業(yè)客戶也在會上分享了大模型應(yīng)用的實踐經(jīng)驗。

20240928095755

本次豆包帶來的一系列大模型進展中，最引人關(guān)注的，莫過于全新豆包視頻生成模型，它能夠帶來影視級視覺感受的視頻生成效果，全面推動豆包大模型 AIGC 應(yīng)用創(chuàng)新的步伐。

20240928095726

在豆包視頻生成模型正式推出之前，可能不少同學(xué)已經(jīng)使用過市面上一些 AI 生成視頻的產(chǎn)品。小編此前也做過體驗，總體來說這些大模型生成的視頻往往有比較明顯的“AI 痕跡”，無論是視頻的內(nèi)容邏輯、畫面自然度等方面，都有待提升，而且對語義指令的理解也存在問題，經(jīng)常會生成一些不符合指令要求的視頻。

而這些問題在豆包視頻生成模型中，都得到了針對性的解決，同時也成為其不可忽視的產(chǎn)品亮點。

首先，豆包視頻生成模型擁有精準的語義理解能力，支持多動作多主體交互的內(nèi)容生成。相比大部分視頻生成模型只能完成簡單指令單一動作，豆包視頻生成模型可以遵從更復(fù)雜的 prompt，解鎖時序性多拍動作指令與多個主體間的交互能力，指哪兒打哪兒，為你打開想象力的大門。

比如下面這則視頻，兩位主角的動作、表情都非常自然，包括馬兒看起來也很真實。

95-42-31-4K_HD_two_individuals_with_long_hair,_dressed_in_rugged,.2024-09-28 10_00_13

還有下面這段視頻，首先女主的表情十分細膩自然，當(dāng)男主入畫時，女主緩緩戴上墨鏡，和男主的動作交互也非常真實，看起來似乎是有些抗拒，將復(fù)雜細膩的微動作都呈現(xiàn)了出來，從而讓視頻呈現(xiàn)出強烈的“故事感”。

640 (4)

其次，豆包視頻生成模型支持強大動態(tài)與炫酷運鏡，讓 AI 生成視頻告別 PPT 動畫質(zhì)感。針對高動態(tài)的復(fù)雜場景視頻、多樣化表達的文本指令，豆包視頻生成模型基于高效的 DiT 融合計算單元，更充分地壓縮編碼視頻與文本，使生成視頻的動作更靈動，鏡頭更多樣，表情更豐富，細節(jié)更豐滿。

并且生成的視頻可同時存在主體的大動態(tài)與鏡頭的炫酷切換。支持變焦、環(huán)繞、平搖、縮放，目標跟隨等超多鏡頭語言，靈活控制視角。

例如下面這則視頻，畫面中兩位主角前后景的變焦切換非常自然，感覺就像是真實的攝影師在水中拍攝的畫面，而不像以往 AI 生成視頻那樣呆板生硬。

96-42-32-4K_HD_close__up_of_an_asian_male_wearing_protective_gogg.2024-09-28 10_02_38

在內(nèi)容邏輯方面，豆包視頻生成模型還支持一致性多鏡頭生成，能夠 10 秒講一個完整的故事。它采用全新設(shè)計的擴散模型訓(xùn)練方法，成功攻克了多鏡頭切換時難以保持一致性的困擾，在一個 prompt 的多個鏡頭切換時，保持主體、風(fēng)格、氛圍和邏輯的一致性，實現(xiàn)導(dǎo)演自由。

例如下面這則動畫視頻，三個鏡頭組成了一個簡短易懂的場景故事，看起來就像是一個正常的動畫電影中截取的片段。

飛書20240921-212001.2024-09-28 10_04_01

再比如下面這則視頻，講述一個乘坐火箭的人沖撞大樓引發(fā)爆炸的場景故事，三段鏡頭的剪輯呈現(xiàn)出流暢的故事邏輯，還給了主人公緊張的表情特寫，調(diào)動觀眾的情緒，讓人感嘆 AI 這是覺醒了“創(chuàng)作意識”?

飛書20240921-212008.2024-09-28 10_09_28

此外，豆包視頻生成模型還能保證視頻高保真和高美感，可生成影視級畫面，細節(jié)層次豐富，逼真度極高，擁有專業(yè)級色彩調(diào)和和光影布局，大幅提升畫面視覺審美。

比如下面這一則，整個畫面的打光、色調(diào)、場景、角色的表情都非常精致、細膩，很有電影大片的質(zhì)感，不說的話誰能想到這是 AI 生成的視頻?

640

同時其深度優(yōu)化的 Transformer 結(jié)構(gòu)，大幅提升了視頻生成的泛化能力，支持包括黑白、3D 動畫、2D 動畫、國畫、厚涂等多種風(fēng)格，包含 1:1、3:4、4:3、16:9、9:16、21:9 比例，帶你領(lǐng)略更自由的世界。

640 (1)

可以看到，豆包視頻生成模型的表現(xiàn)確實是相當(dāng)驚艷的，無論是語義理解能力、多個主體運動的復(fù)雜交互畫面，還是多鏡頭切換的內(nèi)容一致性等方面，都可以做到接近專業(yè)人類視頻工作者的水平，如果不說是 AI 生成的，可能大家都很難發(fā)現(xiàn)。

而能做到這一點，對于字節(jié)跳動以及火山引擎來說，其實完全在意料之中。

首先在“視頻”能力方面，本就是字節(jié)跳動的優(yōu)勢賽道?；鹕揭娌粌H是抖音計算服務(wù)的提供方，更是國內(nèi)眾多視頻、直播等業(yè)務(wù)背后的可靠支撐，在長年應(yīng)對視頻業(yè)務(wù)流量、時延、穩(wěn)定性等各種嚴苛的挑戰(zhàn)中，沉淀下來獨樹一幟的技術(shù)能力。

而在 AI 方面，即大模型的能力，有火山引擎的支撐，字節(jié)跳動豆包大模型無論在算力、算法以及數(shù)據(jù)、場景等方面都有非常充沛的資源。具體到本次豆包視頻生成模型上，我們也能看到字節(jié)跳動在視頻大模型技術(shù)研發(fā)的不斷投入和創(chuàng)新。比如他們采用了高效的 DiT 融合計算單元，還全新設(shè)計了擴散模型的訓(xùn)練方法，來實現(xiàn)一致性多鏡頭的生成。此外他們還深度優(yōu)化了 Transfomer 結(jié)構(gòu)，大幅提升了視頻生成的泛化能力。