谷歌Gemini Pro 1.5「百萬(wàn)Tokens長(zhǎng)文本」免費(fèi)全量開(kāi)放!一小時(shí)電影“投喂”進(jìn)去,大模型直出神級(jí)影評(píng)
當(dāng)下最火的「長(zhǎng)文本」來(lái)力嘞!
谷歌最牛的大語(yǔ)言模型Gemini 1.5 Pro,即日起對(duì)外開(kāi)啟公測(cè)。
目前使用是完全免費(fèi),開(kāi)發(fā)者可以通過(guò)API調(diào)用的方式免費(fèi)體驗(yàn),普通用戶(hù)也可以直接在谷歌的AI Studio中進(jìn)行體驗(yàn)。
更具有諷刺意味的是,對(duì)外發(fā)布產(chǎn)品公測(cè)消息的谷歌工程師Logan Kilpatrick,不久前還是OpenAI的開(kāi)發(fā)者關(guān)系項(xiàng)目負(fù)責(zé)人,跳槽之后就得到“重用”可謂兵不血刃弒舊主。
劃重點(diǎn)!本次更新最令人期待的是,Gemini 1.5 Pro API首次增加了音頻理解功能。
一句話(huà)——無(wú)論是學(xué)術(shù)論文、財(cái)報(bào)分析師電話(huà)會(huì)議、談話(huà)電視節(jié)目還是TED的長(zhǎng)篇演講,我們不再需要課代表or字幕組,就可以輕松掌握核心內(nèi)容。
如下圖所示:
我們上傳了一段谷歌首席科學(xué)家Jeff Dean一篇長(zhǎng)度大約為117000 Tokens的演講錄音,Gemini 1.5 Pro僅耗時(shí)30.8秒就完成了內(nèi)容解析。
要知道,目前Gemini 1.5 Pro同樣支持「長(zhǎng)文本」功能,上下文窗口提取100萬(wàn),這次也直接對(duì)外免費(fèi)開(kāi)放。
據(jù)悉,目前大模型能處理的最長(zhǎng)音頻約為11小時(shí),最長(zhǎng)視頻則為1小時(shí),相當(dāng)夠用。
谷歌這次推出的Gemini 1.5 Pro被定義為「公開(kāi)預(yù)覽版」。它主要面向開(kāi)發(fā)者發(fā)布,任何人都可通過(guò)谷歌AI Studio開(kāi)發(fā)平臺(tái)申請(qǐng)API的密鑰。
你也可以直接在谷歌AI Studio在線(xiàn)開(kāi)測(cè)備受好評(píng)的音視頻解析功能。
點(diǎn)擊AI Studio里邊的「Audio」。
我們給Gemini上點(diǎn)狠招——我們上傳了比爾·蓋茨在1995年做客美國(guó)《深夜秀》訪(fǎng)談節(jié)目的一段音頻,時(shí)長(zhǎng)為1分鐘。
我們沒(méi)有提供任何暗示性提示詞,谷歌Gemini 1.5 Pro就已經(jīng)聽(tīng)出了訪(fǎng)談雙方是什么人物,是什么身份。
并且只花了10秒的時(shí)間,就精準(zhǔn)整理出了這段對(duì)話(huà)的核心信息,干脆利落一句廢話(huà)都沒(méi)有。
第一次體驗(yàn),測(cè)試表現(xiàn)就令人折服。
接下來(lái),測(cè)一個(gè)更難的——上傳特斯拉前人工智能部門(mén)總監(jiān)Andrej Karpathy的一段長(zhǎng)達(dá)1小時(shí)關(guān)于AI大模型的科普講解。
我們提取音頻文件時(shí)發(fā)現(xiàn),這則1小時(shí)的影片足足有10萬(wàn)多個(gè)Tokens。
這個(gè)Tokens數(shù)據(jù)量還是蠻驚人的。
但是難不倒Gemini 1.5 Pro,最終也只花了53秒——一分鐘不到,就按要求給出了演講稿里邊的10個(gè)亮點(diǎn)分析。
這種「長(zhǎng)文本」音頻轉(zhuǎn)文本的功能,讓我們?cè)僖膊挥么筚M(fèi)周章扒文字稿和字幕了。
回到API接口本身。
除了讓開(kāi)發(fā)者可以更好地控制音頻理解的大模型接口輸出,Gemini 1.5 Pro還提供了另外3項(xiàng)功能改進(jìn)。
①首先是系統(tǒng)指令。
我們可以自定義一些特殊用例,包括它們的角色、輸出格式/風(fēng)格/語(yǔ)氣、目標(biāo)和規(guī)則等等。
設(shè)置完成后,這個(gè)指令就會(huì)應(yīng)用于接下來(lái)的整個(gè)請(qǐng)求。
示例如下:
②其次是JSON模式。
也就是可以指示模型僅輸出JSON對(duì)象了,非常方便我們從文本或圖像中提取結(jié)構(gòu)化數(shù)據(jù)。
③再者,函數(shù)調(diào)用上也有改進(jìn)。
為了提高可靠性,谷歌Gemini 1.5 Pro也可以選擇不同模式來(lái)限制模型的輸出了。
可以是文本模式,將生成文本作為輸出;也可以是函數(shù)調(diào)用模式,或者干脆只輸出函數(shù)本身(不帶任何參數(shù)或其他信息)。
最后,還沒(méi)完,從今天起,開(kāi)發(fā)者還能通過(guò)該API調(diào)用谷歌的下一代文本嵌入模型:text-embedding-004(又名「Gecko」)。
該模型在MTEB基準(zhǔn)上實(shí)現(xiàn)了非常強(qiáng)大的檢索性能,優(yōu)于可比維度的所有對(duì)手。
為了挑戰(zhàn)OpenAI的領(lǐng)導(dǎo)地位,谷歌在2月15日發(fā)布Gemini 1.5 Pro,上線(xiàn)距今還不到兩個(gè)月。
Gemini 1.5 Pro是Gemini Pro 1.0的升級(jí)版,多模態(tài)多語(yǔ)言大模型。
為了找到對(duì)抗GPT-4 Turbo的突破口,其最大的亮點(diǎn)無(wú)疑是100萬(wàn)量級(jí)的上下文窗口長(zhǎng)度——
100萬(wàn)「長(zhǎng)文本」Tokens,相當(dāng)于可一次性處理70萬(wàn)個(gè)單詞or超過(guò)3萬(wàn)行代碼,如果折算成音頻則大約為11小時(shí),視頻則為1小時(shí)。
無(wú)疑是很大的一個(gè)量級(jí),而且谷歌的數(shù)據(jù)中心有能力支持運(yùn)轉(zhuǎn)。
官方的演示案例里邊使用了阿波羅11號(hào)登月項(xiàng)目長(zhǎng)達(dá)402頁(yè)的文字記錄來(lái)展示,可謂「遙遙領(lǐng)先」。
網(wǎng)友也對(duì)新的模型分享了一些十分不錯(cuò)的內(nèi)測(cè)表現(xiàn)案例,比如:
幫助鑒定Sora視頻是否由AI生成,請(qǐng)列舉關(guān)鍵證據(jù)——
Gemini Pro 1.5對(duì)此回答:「這可能是AI生成的視頻,貓咪毛發(fā)過(guò)于完美?!?/p>
大模型還可以在一段NBA扣籃大賽的視頻中,判斷出誰(shuí)的扣籃得分最高, 并給出扣籃方式的細(xì)節(jié)描述。
谷歌Gemini Pro 1.5還支持多個(gè)文檔同時(shí)解讀,比如將《星際穿越》和《星際探索》兩部電影的完整腳本,合計(jì)接近10萬(wàn)個(gè)Tokens。
大模型只花了30多秒就給出了兩部影片腳本的差異性。
可以說(shuō),谷歌整體是沒(méi)有讓大伙失望的。
這還沒(méi)完,最高能的應(yīng)用案例來(lái)了!
沒(méi)想到Gemini Pro 1.5還能看懂視頻里邊的代碼腳本,并且給出BUG修改意見(jiàn)——
一位國(guó)外網(wǎng)友在編寫(xiě)網(wǎng)頁(yè)前端代碼時(shí)故意留下3個(gè)BUG。
他將代碼編寫(xiě)的過(guò)程用手機(jī)錄制下來(lái),再外加代碼庫(kù)打包成一個(gè)文件一并丟給Gemini 1.5 Pro解讀。大模型完全正確地給出了三處BUG的正確修復(fù)代碼。
全網(wǎng)嘩然!「長(zhǎng)文本」加持的Gemini Pro前途不可限量??!
隨著Gemini 1.5 Pro API的全面開(kāi)放應(yīng)用,相信很快就會(huì)有牛人打造更強(qiáng)大的AI應(yīng)用,讀懂一切音視頻,幫助人類(lèi)快速邁向「AGI時(shí)代」。