亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

首頁  >  資訊  >  文章
2023-11-22 17:28

SD副產(chǎn)品延伸:Stability AI發(fā)布圖像生成AI視頻大模型Stable Video Diffusion,可生成4秒短視頻

AI奇點(diǎn)網(wǎng)11月22日?qǐng)?bào)道丨繼9月份推出的音頻生成大模型之后,知名在線AI圖像生成開發(fā)商Stability AI又發(fā)布了旗下最新的 AI 大模型 ——Stable Video Diffusion。這款模型能夠讓圖像生成視頻,是基于之前發(fā)布的 Stable Diffusion 文本生成圖像模型的延伸。目前市面上的優(yōu)秀圖生視頻模型還比較罕見,這條賽道上的玩家還不算太多,Stable Diffusion的入場將對(duì)現(xiàn)在賽道上的Runway Gen-2產(chǎn)生挑戰(zhàn)。

立即體驗(yàn)這款開源的視頻生成大模型:

根據(jù) Stability AI 隨 Stable Video Diffusion 一起發(fā)布的一篇白皮書,Stable Video Diffusion 直接與目前業(yè)內(nèi)的領(lǐng)跑者 Runway 以及 Pika 直接做了對(duì)比。

在于競品的對(duì)比當(dāng)中,官方表示,Stable Video Diffusion 在生成視頻的偏好性測評(píng)上,戰(zhàn)勝了提及的二者大模型。

Stable Video Diffusion 目前處于 Stability AI 的研究開發(fā)階段,想要使用這款模型的人必須同意一些必要的使用條款,其中規(guī)定了 Stable Video Diffusion 預(yù)期的應(yīng)用場景。比如教育或創(chuàng)意工具,設(shè)計(jì)和其他藝術(shù)過程等等,總之就是所謂的“用于正道”。其他非預(yù)期內(nèi)的場景,比如對(duì)人或事件的事實(shí)的杜撰編造,或者對(duì)人性負(fù)面的真實(shí)表達(dá),都將違反大模型的生成規(guī)定。

Stable Video Diffusion 實(shí)際上是由兩個(gè)模型組成的 ——SVD 和 SVD-XT。

SVD 可以將靜態(tài)圖片轉(zhuǎn)化為 14 幀的 576×1024 分辨率視頻;SVD-XT 使用相同的架構(gòu),可以將幀數(shù)提高到 24 幀,兩者都能以每秒 3~30 幀的速度生成4秒鐘的短視頻視頻。

SVD 和 SVD-XT 最初是在一個(gè)包含數(shù)百萬視頻的數(shù)據(jù)集上進(jìn)行訓(xùn)練的,然后在一個(gè)規(guī)模較小的數(shù)據(jù)集上進(jìn)行了“微調(diào)”,這個(gè)數(shù)據(jù)集只有幾十萬到一百萬左右的視頻片段。這些視頻的來源并不十分清楚,白皮書暗示許多是來自公開的研究數(shù)據(jù)集,所以無法判斷是否有任何版權(quán)問題。

SVD 和 SVD-XT 都能生成質(zhì)量較高的4秒鐘視頻,從精心挑選的樣片來看,完全可以與 Meta 最近的視頻生成模型以及谷歌和 AI 初創(chuàng)公司 Runway 和 Pika Labs 的 AI 生成視頻相媲美。

但是AI奇點(diǎn)網(wǎng)也注意到,Stable Video Diffusion 也有其局限性,Stability AI 官方表示,目前模型暫時(shí)不能生成沒有物體對(duì)象運(yùn)動(dòng)軌跡的攝像機(jī)平移走位的視頻,也不能通過文本提示詞對(duì)細(xì)節(jié)進(jìn)行控制,也不能生成正常渲染的文字內(nèi)容,也無法生成正常的人臉面部。

雖然還是早期階段,但是 Stability AI 也指出,大模型具備較好的擴(kuò)展性,可以針對(duì)物體生成360°的環(huán)繞視角視頻。

9

相關(guān)文章