30s生成視頻,免費(fèi)不限次數(shù),中國(guó)版OpenAI今天發(fā)布的「智譜清影」被玩瘋了丨 附體驗(yàn)指南
過(guò)去半年,國(guó)內(nèi)外視頻生成模型迎來(lái)了新一輪技術(shù)大爆發(fā),也都總能在第一時(shí)間燒遍社交網(wǎng)絡(luò)。
與以往的「掉隊(duì)」有所不同,近期趨勢(shì)卻顯示國(guó)內(nèi)在視頻生成模型這一領(lǐng)域的進(jìn)步大為超越了國(guó)際水平。不少國(guó)外網(wǎng)友表示,「中國(guó)的可靈 AI 視頻」在引爆互聯(lián)網(wǎng),而 OpenAI 的 Sora 卻在沉睡。
今天,國(guó)內(nèi)頭部大模型廠商智譜 AI 也發(fā)布了旗下 AI 視頻生成產(chǎn)品「清影」。
當(dāng)然,國(guó)內(nèi)外的 AI 視頻模型有一個(gè)算一個(gè),瑕疵都真不少,但比起「期貨」Sora 來(lái)說(shuō),這些 AI 視頻產(chǎn)品看得見(jiàn)也摸得著,頂多可能需要多嘗試幾次才能「抽」到保底的視頻。
而這種探索本身就是技術(shù)進(jìn)步的一部分。
正如 GPT-3 在誕生之初曾遭受過(guò)質(zhì)疑和批評(píng),最終也用時(shí)間證明了自己繼往開來(lái)的價(jià)值,同理再給這些 AI 視頻生成工具一些時(shí)間,從玩具變成工具也許就在朝夕之間。
清影 PC 端訪問(wèn)鏈接: https://chatglm.cn/video?fr=opt_homepage_PC 清影移動(dòng)端訪問(wèn)鏈接: https://chatglm.cn/video?&fr=opt_888_qy3
相較于今天發(fā)布的智譜清影,可能很多人更為了解智譜清言,但不看廣告看療效,不妨先來(lái)看看由「清影」一手打造的演示 demo。
在蔥郁的森林里,樹葉的縫隙中灑下一些陽(yáng)光,產(chǎn)生丁達(dá)爾效應(yīng),光便有了形狀。
當(dāng)海嘯如同發(fā)飆的怪獸咆哮而來(lái),整個(gè)村子瞬間被海水吞噬,猶如末日電影里的經(jīng)典橋段。
霓虹燈閃爍的城市夜景中,一只充滿賽博美感的小猴手持高科技工具,修理著同樣閃爍、超未來(lái)的電子設(shè)備。
再換個(gè)畫風(fēng),小貓張大嘴巴,人性化地露出困惑表情,臉上寫滿了問(wèn)號(hào)。
沒(méi)有宮斗戲碼、沒(méi)有爾虞我詐,甄嬛眉莊穿越時(shí)空的跨屏擁抱,只有真摯的姐妹情深。
得益于智譜大模型團(tuán)隊(duì)自研高效打造的視頻生成大模型 CogVideo,清影現(xiàn)已支持多種生成方式,包括文本生成視頻、圖片生成視頻,甚至也可應(yīng)用于廣告制作、電影剪輯、短視頻制作等領(lǐng)域。
清影具有強(qiáng)大的指令跟隨能力,能夠充分理解和執(zhí)行用戶給出的指令。
據(jù)介紹,智譜 AI 自研了一個(gè)端到端視頻理解模型,用于為海量的視頻數(shù)據(jù)生成詳細(xì)的、貼合內(nèi)容的描述,從而增強(qiáng)模型的文本理解和指令遵循能力,生成符合用戶需求的視頻。
在內(nèi)容連貫性上,智譜 AI 自研高效三維變分自編碼器結(jié)構(gòu)(3D VAE),將原視頻空間壓縮至 2% 大小,配合 3D RoPE 位置編碼模塊,更有利于在時(shí)間維度上捕捉幀間關(guān)系,建立起視頻中的長(zhǎng)程依賴。
比如從土豆變成薯?xiàng)l一般需要幾步?不需要「動(dòng)火」,只需一句簡(jiǎn)單的提示詞,土豆就變成了金黃誘人的薯?xiàng)l。官方表示,無(wú)論你的想法有多么天馬行空,它都能一一地將其變成現(xiàn)實(shí)。
而參考了 Sora 算法設(shè)計(jì)的 CogVideoX 也是 DiT 架構(gòu),能將文本、時(shí)間、空間三個(gè)維度融合起來(lái),通過(guò)技術(shù)優(yōu)化后,CogVideoX 相比前代(CogVideo)推理速度提升了6 倍。
理論上,模型側(cè)生成 6 秒視頻僅需 30 秒時(shí)間。作為對(duì)比,目前處在第一梯隊(duì)的可靈 AI 生成單個(gè) 5s 的視頻一般耗時(shí) 2 到 5 分鐘。
在今天發(fā)布會(huì)現(xiàn)場(chǎng),智譜 AI CEO 張鵬讓清影生成一個(gè)獵豹在地上睡覺(jué),身體在微微地起伏的視頻,大約 30 秒時(shí)間大功告成。
此外,清影還貼心地提供了配樂(lè)功能,生成視頻可以添上音樂(lè)即可直接發(fā)布。
本以為宇航員彈吉他的靜態(tài)圖已經(jīng)足夠天馬行空,而當(dāng)它動(dòng)起來(lái),再配上悠然的旋律,仿佛航天員在太空中舉辦了一場(chǎng)演唱會(huì)。
與「期貨」Sora 有所不同,「清影」不搞饑餓營(yíng)銷,一上線就全面開放,任何人都可以體驗(yàn)嘗試,不用預(yù)約也不用排隊(duì),并且還將在后續(xù)版本中,陸續(xù)推出更高分辨率、更長(zhǎng)時(shí)長(zhǎng)的生成視頻功能。
張鵬也在智譜 Open Day 上表示,「所有用戶,都能通過(guò)清影(Ying)體驗(yàn) AI 文生視頻、圖生視頻能力。」
現(xiàn)在,清影處于首發(fā)測(cè)試期間,所有用戶都可以免費(fèi)使用。若追求更流暢的體驗(yàn),花上 5 塊錢就能解鎖一天(24 小時(shí))的高速通道權(quán)益,要是愿意付費(fèi) 199 元,就能解鎖一年的付費(fèi)高速通道權(quán)益。
另外,清影(Ying)API 也同步上線大模型開放平臺(tái) bigmodel.cn,企業(yè)和開發(fā)者通過(guò)調(diào)用 API 的方式,體驗(yàn)和使用文生視頻以及圖生視頻的模型能力。
體驗(yàn)絲滑但還要「抽卡」,小白再也不用擔(dān)心寫不好指令了
APPSO 也第一時(shí)間體驗(yàn)了清影,在測(cè)試了一些場(chǎng)景后,我們也總結(jié)出關(guān)于使用清影的一些心得:
視頻生成像「煉丹」,輸出不穩(wěn),建議多試幾次
效果上限得看提示詞,提示詞結(jié)構(gòu)要盡可能清晰
鏡頭畫面效果最好的是近景,其它景別不太穩(wěn)定
實(shí)體類型實(shí)現(xiàn)排序:動(dòng)物>植物>物品>建筑>人物
不懂藝術(shù)的科學(xué)家不是好科學(xué)家,愛(ài)因斯坦彈起吉他來(lái)如魚得水,搖頭晃腦自帶節(jié)奏,不像是演的。
大熊貓彈起吉他也是有模有樣,多才多藝。
平時(shí)不茍言笑的唐僧跟你揮手打招呼,隨著節(jié)奏搖擺起來(lái)。
當(dāng)然,以上還算是一些效果比較好的視頻,在視頻生成的過(guò)程中,我們也積攢了不少?gòu)U片。
比如說(shuō),讓躺在床上的皇上用右手吃個(gè)雞腿,結(jié)果憑空多出了一只手,視頻最后一秒,我感覺(jué)皇上快要露出他的女性?shī)y發(fā)了。
又或者張國(guó)榮看向我的那一刻,心中的哥哥已經(jīng)變成了「那個(gè)男的」。
在復(fù)雜場(chǎng)景中,人物動(dòng)作過(guò)渡不自然、無(wú)法準(zhǔn)確模擬復(fù)雜場(chǎng)景的物理特性、生成內(nèi)容的準(zhǔn)確性不足等等,這些缺點(diǎn)并非是清影的「專利」,而是視頻生成模型目前的局限。
在實(shí)際應(yīng)用中,盡管用戶能通過(guò)優(yōu)化提示詞來(lái)提升視頻質(zhì)量,但「翻車」也是常有的事,好在質(zhì)量尚可的提示詞能夠在很大程度上保證了視頻生成模型的下限。
為了照顧部分小白玩家,我們也特地準(zhǔn)備了一些提示詞的小訣竅:
簡(jiǎn)單公式:[攝像機(jī)移動(dòng)]+[建立場(chǎng)景]+[更多細(xì)節(jié)]
復(fù)雜公式:[鏡頭語(yǔ)言] + [光影] + [主體 (主體描述)] + [主體運(yùn)動(dòng)] +[場(chǎng)景 (場(chǎng)景描述)] +[情緒/氛圍]
攝影機(jī)平移(鏡頭移動(dòng)),一個(gè)小男孩坐在公園的長(zhǎng)椅上(主體描述),手里拿著一杯熱氣騰騰的咖啡(主體動(dòng)作)。他穿著一件藍(lán)色的襯衫,看起來(lái)很愉快(主體細(xì)節(jié)描述),背景是綠樹成蔭的公園,陽(yáng)光透過(guò)樹葉灑在男孩身上(所處環(huán)境描述)。
如果你還是沒(méi)有頭緒,那么我推薦你使用智譜清言提供的幫寫視頻提示詞的智能體,哪怕是輸入生活中常見(jiàn)的普通場(chǎng)景,都能獲得三個(gè)優(yōu)質(zhì)提示詞。
比如,隨手的一句「柯基在沙灘上曬太陽(yáng)」,然后就能得到如下自然風(fēng)光攝影風(fēng)格中英文提示詞,并且還有水彩畫風(fēng)格、3D 動(dòng)畫風(fēng)格等多種風(fēng)格提示詞供你挑選:
中文:在陽(yáng)光明媚的沙灘上,一只柯基犬懶洋洋地躺在沙灘巾上,享受著溫暖的陽(yáng)光。鏡頭從低角度拍攝,背景是廣闊的藍(lán)色海洋和潔白的沙灘,海浪輕輕拍打著岸邊,氣氛寧?kù)o,畫質(zhì) 4K 超清。
英文:On a sunny beach, a Corgi lies lazily on a beach towel, basking in the warm sunlight. The camera captures the scene from a low angle, showcasing the vast blue ocean and pristine white sand in the background, with gentle waves lapping at the shore. The atmosphere is tranquil, captured in 4K ultra-high definition.
看到如此令人滿意的提示詞,不錯(cuò),我當(dāng)時(shí)也確實(shí)是想這么寫的。
附上清影提示詞智能體地址(文生視頻): https://chatglm.cn/main/gdetail/669911fe0bef38883947d3c6
圖片生成視頻同理,輸入圖像主體,選擇圖像風(fēng)格,就能讓智譜清言幫你寫出對(duì)應(yīng)的提示詞。從無(wú)提示詞、到「戴眼鏡」,再到「唐僧伸出手,戴上眼鏡」的進(jìn)化,效果嘛,也是天壤之別。
附上清影提示詞智能體地址(圖生視頻):
https://chatglm.cn/main/gdetail/669fb16ffdf0683c86f7d903
工欲善其事,必先利其器,把格局再打開一點(diǎn),你還可以在智譜清言里體驗(yàn)更多的內(nèi)容創(chuàng)作工具。
從最初的選題材料收集階段,到腳本撰寫環(huán)節(jié),圖片與視頻創(chuàng)作過(guò)程,再到推廣文案,幾乎能打通視頻生成創(chuàng)意的全鏈條,就差沒(méi)明說(shuō),你只顧想創(chuàng)意,剩下的交給它。
我們發(fā)現(xiàn),包括可靈在內(nèi)最近發(fā)布的 AI 視頻產(chǎn)品,都在通過(guò)首尾幀控制等方式提升可控性。
AI 創(chuàng)作者陳坤曾告訴 APPSO,現(xiàn)在可用于商業(yè)化交付的 AI 視頻,幾乎全都是圖生視頻,因?yàn)槲纳曨l還做不到,其實(shí)就是可控性的問(wèn)題。
今天智譜 AI 發(fā)布的清影則進(jìn)一步提升了文字生成視頻的可控性,智譜 AI 接受 APPSO 采訪時(shí)表示,文字生成視頻體現(xiàn)了更通用的可控性。
AI 生成的視頻大部分還是由人用語(yǔ)言的方式去控制的。所以如何讓文字或者簡(jiǎn)單的語(yǔ)言指令的識(shí)別,是更高層面的控制性。
如果去年是大模型爆發(fā)的元年,今年可是說(shuō) AI 視頻走向應(yīng)用的重要節(jié)點(diǎn)。
雖然引爆這一切的 Sora 至今仍未上線,但它給 AI 視頻帶來(lái)了一些啟發(fā)。
Sora 通過(guò)合理的細(xì)節(jié)設(shè)計(jì)解決了幀間細(xì)節(jié)跳變的問(wèn)題。同時(shí)直接生成了高分辨率(1080p)的視頻圖像,可以生成語(yǔ)義豐富的長(zhǎng)達(dá) 60 秒的視頻,說(shuō)明背后訓(xùn)練的序列也比較長(zhǎng)。
僅在這兩個(gè)月,就有不下 10 家公司推出 AI 視頻新產(chǎn)品或大更新。
就在智譜清影發(fā)布前幾天,快手的可靈 AI 在全球開放內(nèi)測(cè), 而另外一個(gè)被認(rèn)為 Sora 的 PixVerse 發(fā)布了 V2版本,支持一鍵生成 1-5 段連續(xù)的視頻內(nèi)容。
不久前,Runway Gen 3 Alpha 也開啟付費(fèi)用戶公測(cè),細(xì)節(jié)的精致度和絲滑程度上有不錯(cuò)的提升。上個(gè)月剛剛發(fā)布的 電影級(jí)視頻生成模型 Dream Machine,也在最近更新了首尾幀功能。
短短幾個(gè)月內(nèi),AI 視頻生成在物理模擬、運(yùn)動(dòng)流暢度、對(duì)提示詞理解方面都有大幅的提升。AI 玄幻劇導(dǎo)演陳坤對(duì)此的感受更為敏感,他認(rèn)為 AI 視頻生成技術(shù)的進(jìn)步或許比想象得更快。
2023 年的 AI 視頻,更像動(dòng)態(tài) PPT,人物在表演慢動(dòng)作,靠蒙太奇剪輯拉分。但現(xiàn)在,AI 視頻的「PPT 味」已經(jīng)淡了不少。
陳坤導(dǎo)演的國(guó)內(nèi)首部 AIGC 奇觀劇《山海奇鏡之劈波斬浪》最近剛剛上線,他用 AI 取代不少傳統(tǒng)影視實(shí)拍的環(huán)節(jié),他告訴 APPSO 以前要做類似的玄幻題材,至少需要 100 個(gè)人,而他的團(tuán)隊(duì)只有 10 多個(gè)人,大大縮短制作周期和成本。
這半年,可以看到更多專業(yè)的影視創(chuàng)作者開始嘗試 AI 視頻。國(guó)內(nèi)快手抖音都上線 AI 短劇,50 位 AIGC 創(chuàng)作者合作完成的首部 AI 長(zhǎng)篇電影《Our T2 Remake》在洛杉磯舉行首映。
雖然 AI 視頻生成在在人物和場(chǎng)景一致性、人物表演、動(dòng)作交互等方面還有局限,但不否認(rèn) AI 視頻正在從去年嘗鮮的玩具,慢慢轉(zhuǎn)變成創(chuàng)作者的工具。
這或許也是包括智譜清影、快手可靈、 Luma Dream Machine 等產(chǎn)品都開始推出會(huì)員體系的重要原因,要知道國(guó)內(nèi)大模型面向 C 端的產(chǎn)品大都以免費(fèi)為主,這和國(guó)內(nèi)訂閱付費(fèi)習(xí)慣和優(yōu)先追求用戶增長(zhǎng)策略有關(guān),AI 視頻的付費(fèi)除了好奇的用戶,必須有更多內(nèi)容創(chuàng)作者支持才能持續(xù)。
當(dāng)然,AI 視頻生成還處于比較早期的階段,所謂「一句話生成電影」只是標(biāo)題黨式的誤導(dǎo),視頻模型需要具有更好的指令遵循能力和可控性,才能更好地理解物理世界。
智譜清影圖生視頻,prompt:古典美女
智譜在今天的發(fā)布會(huì)也提到,多模態(tài)模型的探索還處于非常初級(jí)的階段。
從生成視頻的效果看,對(duì)物理世界規(guī)律的理解、高分辨率、鏡頭動(dòng)作連貫性以及時(shí)長(zhǎng)等,都有非常大的提升空間。
從模型本身角度看,需要更具突破式創(chuàng)新的新模型架構(gòu),它應(yīng)該更高效壓縮視頻信息,更充分融合文本和視頻內(nèi)容,貼合用戶指令的同時(shí),讓生成內(nèi)容真實(shí)感更高。
「我們積極在模型層面探索更高效的 scaling 方式。」但張鵬也對(duì)多模態(tài)模型的發(fā)展充滿信心,「隨著算法、數(shù)據(jù)不斷迭代,相信 Scaling Law 將繼續(xù)發(fā)揮強(qiáng)大威力?!?/p>
AI 創(chuàng)作者陳坤認(rèn)為,AI 生成的鏡頭要 100% 扛得住大銀幕,只是時(shí)間問(wèn)題。這個(gè)時(shí)間是多久并不是最值得關(guān)心的,參與這個(gè)過(guò)程反而更加重要,就像智譜 AI CEO 張鵬此前接受 APPSO 采訪提到的:
很多事情要前赴后繼地去探索,這個(gè)過(guò)程就很重要,不要只看到最終的結(jié)果,更重要的是我們采取行動(dòng),我覺(jué)得這才是目前大家更應(yīng)該關(guān)注的事情。