奧特曼認(rèn)為GPT-4“有點(diǎn)糟糕”丨Stability AI推出3D渲染視頻模型Stable Video 3D丨谷歌推出多模態(tài)視頻模型VLOGGER
AI奇點(diǎn)網(wǎng)2024年3月20日報(bào)道丨AI資訊早報(bào)
當(dāng)?shù)貢r間3月19日報(bào)道,OpenAI CEO奧特曼本周作客科技博主Lex Fridman 的訪談中表示,一年前上線的GPT-4 其實(shí)“有點(diǎn)糟糕(kind sucks)”,阿爾特曼更期待即將到來的 GPT-5 能夠真正配得上大家的期待。
當(dāng)被問及 GPT-4 及其最令人印象深刻的能力時,他說道,“展望未來幾年,我們應(yīng)該意識到我們現(xiàn)在擁有的工具將來看來會非常落后,這正是鞭策我們不斷進(jìn)步、創(chuàng)造更美好的未來的動力。”“別誤會,我既不想貶低 GPT-4 的成就,也不想夸大其詞,”奧特曼說,“正因我們正處于指數(shù)級發(fā)展的曲線上,所以很快我們就會像現(xiàn)在看待 GPT-3 一樣看待 GPT-4。”
奧特曼還認(rèn)為,GPT-4的確存在“令人驚鴻一瞥的閃光點(diǎn)”,但他指出,ChatGPT 在處理復(fù)雜的多步驟問題時幾乎沒什么用處。令他感到”神奇“的情況少之又少。
知名開源大模型公司Stability AI又上新了!當(dāng)?shù)貢r間3月18日,該公司網(wǎng)站發(fā)布用于渲染3D視頻的生成式AI視頻工具Stable Video 3D(SV3D)。
據(jù)了解,Stability AI一直在開發(fā)其Stable Video技術(shù)的視頻功能,使用戶能夠從圖像或文本提示生成短視頻。SV3D在Stability AI之前的Stable Video Diffusion模型的基礎(chǔ)上進(jìn)行了改進(jìn),適用于新視角合成任務(wù)(Novel View Synthesis) 和3D生成的任務(wù)。
通過SV3D,Stability AI通過能夠根據(jù)單一輸入圖像創(chuàng)建和轉(zhuǎn)換多視圖3D網(wǎng)格,為其視頻生成模型增加了新的深度。
在去年12月,Stability AI曾經(jīng)推出Stable Zero123三維建模模型,該模型基于Stable Diffusion開發(fā),并且一次輸出一張圖像。SV3D基于Stable Video Diffusion模型,并且同時輸出多個新視角,而這也是SV3D的關(guān)鍵優(yōu)勢。根據(jù)Stability AI的說法,SV3D能夠從任何給定角度提供連貫的視角。
SV3D現(xiàn)已可供商業(yè)使用,訂閱Stability AI Professional的會員每月20美元(對于年收入不到100萬美元的創(chuàng)作者和開發(fā)者)。該模型最低的顯卡運(yùn)行要求為英偉達(dá)GeForce RTX 4090及以上。
近日,谷歌在其 GitHub 頁面發(fā)布博文介紹一款名為 VLOGGER AI 的新模型,用戶只需要輸入一張肖像照片和一段音頻內(nèi)容,該模型可以讓這些人物“動起來”,富有面部表情地朗讀音頻內(nèi)容。
項(xiàng)目主頁:
VLOGGER AI 是一種適用于虛擬肖像的多模態(tài) Diffusion 模型,使用 MENTOR 數(shù)據(jù)庫進(jìn)行訓(xùn)練,該數(shù)據(jù)庫中包含超過 80 萬名人物肖像,以及累計(jì)超過 2200 小時的影片,從而讓 VLOGGER 生成不同種族、不同年齡、不同穿著、不同姿勢的肖像影片。
研究人員表示:“和此前的多模態(tài)模型相比,VLOGGER AI 的優(yōu)勢在于不需要對每個人進(jìn)行訓(xùn)練,不依賴于人臉檢測和裁剪,可以生成完整的圖像(而不僅僅是人臉或嘴唇),并且考慮了廣泛的場景(例如可見軀干或不同的主體身份),這些對于正確合成交流的人類至關(guān)重要”。
根據(jù)游戲渲染引擎 Unity 的調(diào)查顯示,超過六成(62%)的游戲工作室在其項(xiàng)目開發(fā)過程中會利用人工智能的輔助,這些工具通常被用于節(jié)省時間和提高效率。
在 2022 年,一款游戲制作的平均周期為 218 天,而現(xiàn)在則增加到了 304 天。然而,參與調(diào)查的工作室中有 71% 表示人工智能幫助他們提升了工作質(zhì)量,從理論上講,游戲的平均質(zhì)量得到了長足進(jìn)步。動畫角色是最常使用人工智能進(jìn)行創(chuàng)作的部分,其次是協(xié)助編寫代碼。接下來是創(chuàng)建插圖和關(guān)卡、編寫腳本以及測試游戲。
根據(jù) 68% 的受訪者反饋,使用人工智能的主要原因是為了減少制作原型的時間。2023 年,96% 的工作室在原型開發(fā)上花費(fèi)的時間不到三個月,而一年前這一比例僅為 85%。另一個 AI 應(yīng)用領(lǐng)域是世界構(gòu)建,有 56% 的工作室使用 AI 進(jìn)行這一部分的工作。在這些工作室中,有 64% 利用 AI 創(chuàng)建了非玩家角色 (NPC) 來填充游戲世界。
YouTube 日前宣布,即日起視頻內(nèi)容創(chuàng)作者在該平臺上傳、發(fā)布視頻時,都需要標(biāo)注“篡改或合成”的寫實(shí)逼真內(nèi)容,包括應(yīng)用了生成式 AI 技術(shù)進(jìn)行視頻內(nèi)容制作與剪輯。
YouTube 官方將「逼真內(nèi)容」定義為“任何觀眾容易誤認(rèn)為是真實(shí)的人事物或地點(diǎn)”的內(nèi)容。若視頻創(chuàng)作者使用真人聲音的合成版本來為視頻配音,或發(fā)布“AI 換臉”主題的視頻,就需要附上標(biāo)簽。此舉的本質(zhì)目的是防止 AI 生成內(nèi)容可能導(dǎo)致的虛假信息傳播,而非反對創(chuàng)作者通過 AI 制作內(nèi)容。
而類似于美顏濾鏡、背景模糊等傳統(tǒng)視覺特效,以及轉(zhuǎn)場特效動畫等不屬于此次涉及的 AI 制作內(nèi)容的范疇。
官方表示,創(chuàng)作者必須披露存在以下情況的內(nèi)容:
這可能包括使用音頻、視頻或圖片制作或編輯工具,完全或部分加工或制作而成的內(nèi)容。但與此同時,創(chuàng)作者無需對加工或合成的非逼真內(nèi)容進(jìn)行披露,也無需對真實(shí)內(nèi)容的輕微修改進(jìn)行披露。
除了上文提到的美顏或特效外,YouTube 還舉例稱,類似于“某人騎著獨(dú)角獸穿越奇幻世界”“描繪人在太空中漂浮的綠幕場景”這種公眾很明確能知道現(xiàn)實(shí)世界不存在的內(nèi)容,則不需要強(qiáng)制標(biāo)注。
市場調(diào)查機(jī)構(gòu) Canalys 近日發(fā)布的最新報(bào)告指出,2024 年標(biāo)志著傳統(tǒng) PC 產(chǎn)業(yè)鏈朝著 AI PC 的重大轉(zhuǎn)變,預(yù)估今年全球 AI PC 出貨量 4800 萬臺,占到全部 PC 出貨總量的 18%。目前狹義上的「AI PC」特指的是搭載了英特爾最新酷睿處理器的 PC 設(shè)備。
該機(jī)構(gòu)預(yù)估 2025 年全球 AI PC 出貨量超過 1 億臺,占 PC 出貨總量的 40%;到 2028 年,全球 AI PC 出貨量 2.05 億臺,2024 年至 2028 年期間的復(fù)合年增長率將達(dá)到 44%。