谷歌發(fā)布全能視頻生成模型VideoPoet丨研究稱Gemini Pro不如GPT丨蓋茨:距離公眾廣泛應用AI技術還需兩三年
AI奇點網(wǎng)2023年12月21日報道丨AI資訊早報
當?shù)貢r間12月19日,谷歌于官網(wǎng)發(fā)布了一款零樣本視頻生成的大型語言模型VideoPoet。用戶可以利用視頻生成模型講述一個視覺故事,為了展示VideoPoet的功能,谷歌利用Bard撰寫了一系列的腳本提示詞,生成了一個關于旅行浣熊的短篇故事。然后,借助提示詞生成了一段一段的視頻剪輯片段,并將所有生成的剪輯拼接在一起成為短視頻,為YouTube創(chuàng)作者提供了一個創(chuàng)作思路。
VideoPoet
VideoPoet是由Google開發(fā)的一款語言大模型,旨在解決視頻生成領域的挑戰(zhàn)。目前支持多種視頻生成任務,包括文本到視頻、圖像到視頻、視頻風格化、修復和修復以及視頻到音頻。
該模型能夠執(zhí)行多種AI視頻生成任務,包括文本生成視頻、圖像生成視頻、視頻風格化遷移、視頻局部修復、視頻畫幅擴張以及視頻生成音頻多種能力。該模型采用的方法在單個大模型中無縫集成了多種視頻生成功能,而不是依賴于專門針對每項任務的單獨訓練組件。
據(jù)外媒消息,卡內基梅隆大學(CMU)的研究團隊近日發(fā)布了一份研究論文顯示,當他們將谷歌剛推出不久的Gemini Pro模型與OpenAI的GPT-3.5 Turbo、GPT-4 Turbo以及Mistral AI的Mixtral 8x7B放在一起橫向測試對比。他們發(fā)現(xiàn),Gemini Pro并沒有谷歌宣傳的那么“卓越”。
通過一組不同的提示運行所有模型,包括向他們詢問57個不同的多項選擇題,涉及STEM、人文科學、社會科學等方面的內容。測試結果顯示,Gemini Pro得分在十幾個數(shù)據(jù)集的測試上表現(xiàn)均不如OpenAI的老模型GPT-3.5 Turbo(下表列舉了4款參試模型,其中GPT-4 Turbo平均得分最高)。
研究人員還發(fā)現(xiàn),當提示不同的模型在標記為A、B、C或D的答案之間進行選擇時,Gemini選擇“D”答案的次數(shù)比較其他模型的比例要多得多,無論它是否為正確的答案。
CMU對此的評價是,對于Gemini大模型存在的“AI幻覺”感到非常的困惑。從下圖右側,我們可以看到Gemini Pro更偏向于選擇“D”答案。
近日,OpenAI首席科學家Ilya Sutskever入選了《自然》(Nature)雜志評選的「2023年年度十大科學人物」。
他強調,只要能夠極好地預測下一個token(字符串),就能幫助人類達到所謂的“人工通用智能”(AGI)。Ilya認為,大型語言模型,如ChatGPT,本質上是預測下一個字符的工具,具備超越人類智慧的綜合能力。他表示,人工智能有能力改變整個人類文明的存在方式,而不僅僅是解決小問題。在他看來,預測下一個token的能力是實現(xiàn)這一目標的關鍵。
Ilya認為大型語言模型通過預測下一個字符,可以理解導致該token創(chuàng)建的潛在現(xiàn)實。他指出,足夠好地預測下一個token意味著理解創(chuàng)造這組統(tǒng)計數(shù)據(jù)的世界是什么,以及人類行為是如何決定的。他認為,只要能很好地預測下一個token,人工智能就能覺察一個具有偉大洞察力、智慧和能力的人類會做什么,即使這樣的人并不存在。
當?shù)貢r間12月19日,比爾·蓋茨在自己的博客上展望下一個時代的AI發(fā)展趨勢,其中談道:
如果讓我做個預測,在美國這樣的高收入國家,我猜離普通民眾大量使用AI還有18-24個月的時間。而在非洲國家,我預計在3年左右的時間里,AI的使用就會達到相當?shù)乃?。這仍然是一個差距,但比我們在其他創(chuàng)新中看到的滯后時間要短得多。
他還提到,希望AI在抗生素藥物、個性化教育、高危妊娠治療、艾滋病風險評估、醫(yī)療信息獲取等方面能夠得到更廣泛的應用。
據(jù)路透社報道,谷歌于當?shù)貢r間本周二宣布,為避免干擾正常的選舉活動,在2024年美國總統(tǒng)大選之前到結束,官方將限制其AI聊天機器人Bard和Google搜索生成體驗給用戶返回一些與選舉題材有關的信息,這些限制措施將在2024年初開始實施。