領(lǐng)先GPT八條街!實測谷歌Gemini 1.5大模型:識破Sora生成視頻,百萬級Tokens吞吐斷崖式領(lǐng)先
春節(jié)假期的最后兩天,大模型迎來了今年首個高潮。
今年萬眾期待的GPT-5,還需些許時日。而Sora視頻模型橫空出世引發(fā)全網(wǎng)熱議。
在OpenAI光環(huán)過分閃耀之下,咱們也別錯過谷歌的新一代模型Gemini 1.5就來了。這家老牌大廠鉚足勁和OpenAI一較高下,開啟了高產(chǎn)模式。
與Sora發(fā)布的同日,谷歌最新一代多模態(tài)大模型——Gemini 1.5誕生。
其中最大亮點是最高可支持10000K Token的超長上下文。
對比GPT-4 Turbo的128K Tokens,以及Glaude 2.1的200K Tokens,可謂直接“爆殺”!
數(shù)據(jù)集吞吐能力徹底碾壓一切主流大模型,直接晉升宇宙第一!
百萬級Token,我們可以直接給AI投喂數(shù)十萬字的超長文檔、擁有數(shù)百個文件的數(shù)十萬行代碼庫、一部完整的好萊塢大片等等,讓它協(xié)助解讀。
要知道,《三體》平均二三十萬字一部,Gemini 1.5可以一口氣吞下去。
這個技能點,放在2023年是完全不敢想的。
為了介紹新模型,谷歌準(zhǔn)備了58頁的技術(shù)文檔。
毫不夸張地說,大語言模型進(jìn)入了嶄新階段!
谷歌成功將吞吐量世界紀(jì)錄提升到百萬級數(shù),甚至在實驗室還創(chuàng)造過極限1000萬Tokens,直接拉爆友商啦~~
也許不少剛接觸AI的家人還無法理解——
大語言模型的Tokens吞吐能力到底有什么意義?
AI大模型發(fā)展現(xiàn)在這個階段,大模型需要處理的網(wǎng)絡(luò)信息量呈現(xiàn)指數(shù)級的增長,上下文窗口的Tokens能力,已經(jīng)成為了關(guān)鍵的掣肘。
模型Tokens需要處理各種復(fù)雜的單詞、圖像、視頻、音頻、代碼等等信息。上下文窗口越大,它能接納的信息量就越多,就更有機會輸出符合用戶需求的內(nèi)容。
打個比方:一個學(xué)霸可以在一夜之間啃完一本教科書,一個學(xué)渣即便在老師的輔導(dǎo)下,也很難在一個學(xué)期內(nèi)掌握一門課程。
谷歌Gemini 1.5 Pro目前能夠一次性處理海量信息:
話不多說,實測一下!
我們甩給它一份美國“阿波羅”11號登月任務(wù)的402頁飛行報告,總計32萬+ Tokens,里邊包含了各種文字記載與圖表,Gemini 1.5 Pro可以一次性處理復(fù)雜信息,并表現(xiàn)出深刻的理解。
我們從“阿波羅”登月里邊挑選了三個改變世界的歷史時刻,讓它進(jìn)行表述。
前后只花了30秒出頭,答案就已經(jīng)生成了!
Gemini 1.5 Pro清楚列出了包括阿姆斯特朗經(jīng)典名言在內(nèi)的三個有趣的歷史瞬間。
接下來,再測試它的多模態(tài)能力——
我們把一張手繪腳穿一只靴子的簡筆畫上傳,詢問它:「這是什么時刻?」
它會回答:月球上的一小步,人類的一大步。Bingo!
不僅如此,這次谷歌還為Gemini 1.5開發(fā)了一項新功能,允許用戶上傳多個文件,并整合理解后回答問題。
更大的Tokens,模型能夠處理更多信息,輸出一致性更好更精準(zhǔn)的結(jié)果。
谷歌Gemini 1.5 Pro還展現(xiàn)了不可思議的內(nèi)容理解能力和推理能力。
得益于Gemini出色的多模態(tài)能力,大模型會將上傳的視頻拆分成數(shù)千個畫面片段進(jìn)行理解,從而回答關(guān)于視頻相關(guān)的各種問題。
比如,我們上傳了一部44分鐘的無聲電影——Buster Keaton主演的《小神探夏洛克》,接近于70萬Tokens的數(shù)據(jù)。
需要注意的是,目前Gemini暫不支持有聲電影里邊的對白理解。
大模型不僅能夠精準(zhǔn)地捕捉到電影的情節(jié)發(fā)展與轉(zhuǎn)折,還能洞察到人類觀眾極易忽略的細(xì)微之處。
下面提問:請找出「一張紙從主角口袋中被拿出」的瞬間,然后告訴我關(guān)于這個細(xì)節(jié)的信息。
Gemini 1.5 Pro大約花費60秒準(zhǔn)確地找出這個鏡頭位于12分01秒的位置,還描述出了相關(guān)的細(xì)節(jié)。
「12點01分,從這個人的口袋里取出一張紙。這是一張當(dāng)票,是1924年10月23日從高盛典當(dāng)行寄出的一張當(dāng)票,用于典當(dāng)一塊手表和一條項鏈,價值4美元。這張當(dāng)票是威爾·史密斯的署名?!?/p>
震驚!Gemini所描述的細(xì)節(jié)是完全準(zhǔn)確的。
大模型不僅可以讀懂動態(tài)畫面的內(nèi)容,還可以讀懂畫面里邊的文本信息。
緊接著,我們上傳一張粗糙的局部涂鴉,畫了一個蓄水水塔,并要求Gemini找出與電影場景當(dāng)中相對應(yīng)的相似場景,它在一分鐘內(nèi)也給出了答案。
除了更強的多模態(tài)信息吞吐、理解與輸出能力,Gemini 1.5 Pro在處理長達(dá)超過10萬行的“屎山代碼”時,還具備超強的糾錯能力。
面對如此龐大的代碼量,Gemini不僅能夠深入分析各個示例,提出實用的修改建議,還能詳細(xì)解釋代碼的各個部分是如何協(xié)同工作的。
憑借海量Tokens,開發(fā)者可以直接一次性上傳一整套代碼庫,利用這個模型快速熟悉、理解代碼結(jié)構(gòu)。
Gemini 1.5 Pro的理論性能可以比肩「超大杯」的Gemini Ultra,大幅超越1.0版本。
在涵蓋文本、代碼、圖像、音頻和視頻的綜合性測試中,Gemini 1.5 Pro在87%的基準(zhǔn)測試上完成了對自己的超越;與Gemini 1.0 Ultra相比性能也相差無幾。
Gemini 1.5 Pro在專用于測試大模型Tokens能力的「大海撈針」測試中,它能夠在長達(dá)100萬Token的文本里邊,準(zhǔn)確找出隱藏有特定信息的文本片段的成功率高達(dá)99%,數(shù)據(jù)檢索進(jìn)度條幾乎全綠。
測評到了這里,OpenAI的GPT-4的確在這項能力望塵莫及。
當(dāng)谷歌Gemini 1.5 Pro遇上搶走它頭條的Sora會怎樣?
它甚至可以“辨別”視頻是否由AI生成。
有取得Sora內(nèi)測資格的大佬嘗試Gemini 1.5 Pro去分析Sora生成的那個著名的「日本雪櫻CityWalk」場景的AI視頻。
我們將整段視頻投喂給大模型。對此,Gemini 1.5 Pro給出的評價是:
視頻呈現(xiàn)的是日本一條覆蓋著雪的街道,櫻花正盛開。但幾處明顯的問題暗示這個視頻可能是AI制作的。
首先,盡管雪下得非常大,櫻花卻依然綻放。通常,櫻花在春季開放,那時天氣溫暖,不會有雪;
其次,雪以一種過于規(guī)律的方式落下,這與現(xiàn)實中雪的降落方式不符;
再者,盡管正下著大雪,視頻中的人們卻沒有穿戴任何冬季服裝。
總而言之,雖然視頻的視覺效果令人贊嘆,但這些問題表明它并非真實場景所拍。
不得不說,Gemini的確成功判別了AI露出馬腳的痕跡,判定并非實拍,說明它的識別和理解能力確實非常出色。
不過EVA也必須實話實說,日本的確有「雪櫻」?。
無獨有偶,另外一位大神測試了「貓咪穿越灌木叢」的視頻。
對此,Gemini 1.5給出的評價是:
這段視頻很有可能是由人工智能創(chuàng)造的,但要確定地說還是有些困難。
一些細(xì)節(jié)似乎表明這段視頻是真實的,例如貓的動作自然流暢,光影效果也相當(dāng)逼真。
然而,也有一些細(xì)節(jié)讓人懷疑,比如貓的眼睛異常放大,毛皮的質(zhì)感也過于完美無瑕。
最終,視頻是真是假,還是要留給觀眾自己去判斷。
顯然,Sora生成的視頻已經(jīng)達(dá)到了以假亂真的程度。盡管如此,Gemini依然輸出了有理有據(jù)的回復(fù)。
不過需要指出的是,在以上兩個實測案例當(dāng)中,人們輸入的提示詞里邊都有提及「AI生成」這個關(guān)鍵詞,給大模型思考方向上提供了引導(dǎo)。
谷歌成功把Tokens性能「卷」至百萬級,于是網(wǎng)友們來了一大波千奇百怪的實測:
比如,上傳了今年的NBA全明星扣籃大賽視頻,詢問:「哪一個扣籃的得分最高?」
Gemini 1.5 Pro可以很快地從漫長的視頻當(dāng)中找出那個得分50的滿分扣籃!
馬克·麥克朗的最后一記扣籃獲得了當(dāng)晚的最高分——50分滿分。
他越過兩人,將球輕敲籃板后板,然后用右手完成扣籃。
精細(xì)的畫面描述,真是令人瞠目結(jié)舌呀?。?/p>
然后,我們在嘗試讓Gemini 1.5 Pro去比較《星際穿越》和《星際探索》兩部電影的電影腳本有什么不同,并給出觀看建議。
這時候,可以一次上傳兩個劇本的文檔,讓Gemini進(jìn)行理解。Gemini 1.5 Pro最后給出了它的看法:
《星際探索》:歸根結(jié)底,這是一個關(guān)于個人成長和人與人之間聯(lián)系的重要性的故事,表明即使面對宇宙的冷漠,找到自身的意義和與他人的聯(lián)系也是至關(guān)重要的。
《星際穿越》:更加樂觀和充滿希望,強調(diào)了人類智慧的力量,以及面對看似難以克服的挑戰(zhàn)時堅持不懈的重要性。
接下來該看哪部電影取決于你的個人喜好:
如果您正在尋找一個更加內(nèi)省、以人物為驅(qū)動力、注重情感主題的故事,《星際探索》可能是一個不錯的選擇。
如果你更喜歡史詩般的動作冒險,關(guān)注人類的生存,那么《星際穿越》可能更有吸引力。
兩部電影都為太空探索和人類經(jīng)歷提供了獨特而發(fā)人深省的視角。
然后,他又讓Gemini將一段英文內(nèi)容翻譯成德國境內(nèi)一種瀕危方言、全世界不超過2000人懂得的薩特蘭弗里斯語。
Gemini 1.5經(jīng)過推理之后很快翻譯出來,這個過程確實碉堡了。
接著,他讓Gemini理解整個《星際穿越》的劇本,并要求大模型將劇本里邊最高潮的臺詞提取出來。
Gemini 1.5 Pro輸出了3句最鼓舞人心的臺詞。
①「人類誕生于地球,但我們的命運遠(yuǎn)不止于此?!?mdash;— Cooper
這句話深刻地表達(dá)了人類探索未知、超越現(xiàn)狀的不屈不撓的精神。它提醒我們,我們的潛力不受當(dāng)前所處環(huán)境的限制,我們完全有能力克服挑戰(zhàn),追求更高的目標(biāo)。
②「愛是唯一能跨越時間和空間,觸及我們心靈的力量?!?mdash;— Brand
這句話揭示了愛的強大能力,它能夠跨越遙遠(yuǎn)的距離,甚至是時間的界限,將我們緊緊相連。它暗示,愛是宇宙中的一股根本力量,能在逆境中為我們指明方向,帶給我們希望。
③「曾經(jīng),我們仰望星空,夢想著自己在浩瀚宇宙中的位置。如今,我們卻沉溺于眼前的瑣事,忘記了自己的遠(yuǎn)大理想?!?mdash;— Cooper
這句話是對好奇心、追求和雄心壯志的重要性的深情提醒。它對比了過去人類滿懷希望地探索星辰的時代,與如今忙于應(yīng)對日常挑戰(zhàn)、失去對未來的憧憬的現(xiàn)狀。它激勵我們重新尋找那份對未知的好奇和對更美好未來的追求。
擁有百萬級Tokens的Gemini 1.5最高極限能到什么程度?
我們投喂了整部的《哈利·波特與魔法石》,共計741028個Token。并要求它輸出50個小說中最重要的時刻,并給出評分,5分滿分。
Gemini 1.5完成這個任務(wù)耗時4分鐘。
梅西對陣赫塔菲比賽中的經(jīng)典單刀,投喂給Gemini。
提問:「這個進(jìn)球為什么如此有名?」
它成功識別出了梅西,但是把赫塔菲的球員識別成了皇馬球員。
這張圖片之所以出名,是因為它捕捉到了有史以來最偉大的足球運動員之一梅西在與巴塞羅那最大的對手之一皇家馬德里比賽時的場景。梅西的球技和運動能力在這幅圖片上得到了充分展示,視覺效果極佳。
看來Gemini還是隱藏的梅西粉絲呢~?他認(rèn)為進(jìn)球知名的原因是因為球員本人的名氣。
最后一道題——讓Gemini 1.5造10個完全不同的句子,每個句子都以「Apple」結(jié)尾。
這個經(jīng)典任務(wù)可以檢驗大模型基于限定規(guī)則下多次造句的能力。
最后,Gemini 1.5完全沒能完成這項挑戰(zhàn)。
嘗試讓GPT-4來測試這道題,結(jié)果GPT-4也沒能完成,算打了個平手。?
辛苦家人們能看完這么長的測評。
辛苦大家看到這里,到這里一目了然。
谷歌Gemini 1.5 Pro的超大Tokens擁有許多實際應(yīng)用的場景。谷歌顯然成功點亮了超越友商的科技樹,這展現(xiàn)了谷歌過去半年的努力成果。
下一步,在你追我趕之間,谷歌還會帶來什么驚喜呢?
近期文章
更多