樱花草视频在线观看www,亚洲欧美日韩中文字幕一区二区三区,中文在线а√天堂官网

亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

首頁(yè) > 資訊 > 文章

2024-04-11 16:09

谷歌Gemini Pro 1.5「百萬(wàn)Tokens長(zhǎng)文本」免費(fèi)全量開(kāi)放！一小時(shí)電影“投喂”進(jìn)去，大模型直出神級(jí)影評(píng)

當(dāng)下最火的「長(zhǎng)文本」來(lái)力嘞！

谷歌最牛的大語(yǔ)言模型Gemini 1.5 Pro，即日起對(duì)外開(kāi)啟公測(cè)。

目前使用是完全免費(fèi)，開(kāi)發(fā)者可以通過(guò)API調(diào)用的方式免費(fèi)體驗(yàn)，普通用戶(hù)也可以直接在谷歌的AI Studio中進(jìn)行體驗(yàn)。

更具有諷刺意味的是，對(duì)外發(fā)布產(chǎn)品公測(cè)消息的谷歌工程師Logan Kilpatrick，不久前還是OpenAI的開(kāi)發(fā)者關(guān)系項(xiàng)目負(fù)責(zé)人，跳槽之后就得到“重用”可謂兵不血刃弒舊主。

劃重點(diǎn)！本次更新最令人期待的是，Gemini 1.5 Pro API首次增加了音頻理解功能。

一句話(huà)——無(wú)論是學(xué)術(shù)論文、財(cái)報(bào)分析師電話(huà)會(huì)議、談話(huà)電視節(jié)目還是TED的長(zhǎng)篇演講，我們不再需要課代表or字幕組，就可以輕松掌握核心內(nèi)容。

如下圖所示：

我們上傳了一段谷歌首席科學(xué)家Jeff Dean一篇長(zhǎng)度大約為117000 Tokens的演講錄音，Gemini 1.5 Pro僅耗時(shí)30.8秒就完成了內(nèi)容解析。

要知道，目前Gemini 1.5 Pro同樣支持「長(zhǎng)文本」功能，上下文窗口提取100萬(wàn)，這次也直接對(duì)外免費(fèi)開(kāi)放。

據(jù)悉，目前大模型能處理的最長(zhǎng)音頻約為11小時(shí)，最長(zhǎng)視頻則為1小時(shí)，相當(dāng)夠用。

谷歌Gemini 1.5 Pro API免費(fèi)耍

谷歌這次推出的Gemini 1.5 Pro被定義為「公開(kāi)預(yù)覽版」。它主要面向開(kāi)發(fā)者發(fā)布，任何人都可通過(guò)谷歌AI Studio開(kāi)發(fā)平臺(tái)申請(qǐng)API的密鑰。

你也可以直接在谷歌AI Studio在線(xiàn)開(kāi)測(cè)備受好評(píng)的音視頻解析功能。

點(diǎn)擊AI Studio里邊的「Audio」。

我們給Gemini上點(diǎn)狠招——我們上傳了比爾·蓋茨在1995年做客美國(guó)《深夜秀》訪(fǎng)談節(jié)目的一段音頻，時(shí)長(zhǎng)為1分鐘。

我們沒(méi)有提供任何暗示性提示詞，谷歌Gemini 1.5 Pro就已經(jīng)聽(tīng)出了訪(fǎng)談雙方是什么人物，是什么身份。

并且只花了10秒的時(shí)間，就精準(zhǔn)整理出了這段對(duì)話(huà)的核心信息，干脆利落一句廢話(huà)都沒(méi)有。

第一次體驗(yàn)，測(cè)試表現(xiàn)就令人折服。

接下來(lái)，測(cè)一個(gè)更難的——上傳特斯拉前人工智能部門(mén)總監(jiān)Andrej Karpathy的一段長(zhǎng)達(dá)1小時(shí)關(guān)于AI大模型的科普講解。

我們提取音頻文件時(shí)發(fā)現(xiàn)，這則1小時(shí)的影片足足有10萬(wàn)多個(gè)Tokens。

這個(gè)Tokens數(shù)據(jù)量還是蠻驚人的。

但是難不倒Gemini 1.5 Pro，最終也只花了53秒——一分鐘不到，就按要求給出了演講稿里邊的10個(gè)亮點(diǎn)分析。

這種「長(zhǎng)文本」音頻轉(zhuǎn)文本的功能，讓我們?cè)僖膊挥么筚M(fèi)周章扒文字稿和字幕了。

回到API接口本身。

除了讓開(kāi)發(fā)者可以更好地控制音頻理解的大模型接口輸出，Gemini 1.5 Pro還提供了另外3項(xiàng)功能改進(jìn)。

①首先是系統(tǒng)指令。

我們可以自定義一些特殊用例，包括它們的角色、輸出格式/風(fēng)格/語(yǔ)氣、目標(biāo)和規(guī)則等等。

設(shè)置完成后，這個(gè)指令就會(huì)應(yīng)用于接下來(lái)的整個(gè)請(qǐng)求。

示例如下：

②其次是JSON模式。

也就是可以指示模型僅輸出JSON對(duì)象了，非常方便我們從文本或圖像中提取結(jié)構(gòu)化數(shù)據(jù)。

③再者，函數(shù)調(diào)用上也有改進(jìn)。

為了提高可靠性，谷歌Gemini 1.5 Pro也可以選擇不同模式來(lái)限制模型的輸出了。

可以是文本模式，將生成文本作為輸出;也可以是函數(shù)調(diào)用模式，或者干脆只輸出函數(shù)本身(不帶任何參數(shù)或其他信息)。

最后，還沒(méi)完，從今天起，開(kāi)發(fā)者還能通過(guò)該API調(diào)用谷歌的下一代文本嵌入模型：text-embedding-004(又名「Gecko」)。

該模型在MTEB基準(zhǔn)上實(shí)現(xiàn)了非常強(qiáng)大的檢索性能，優(yōu)于可比維度的所有對(duì)手。

谷歌最強(qiáng)大模型，能干的不止文稿分析

為了挑戰(zhàn)OpenAI的領(lǐng)導(dǎo)地位，谷歌在2月15日發(fā)布Gemini 1.5 Pro，上線(xiàn)距今還不到兩個(gè)月。

Gemini 1.5 Pro是Gemini Pro 1.0的升級(jí)版，多模態(tài)多語(yǔ)言大模型。

為了找到對(duì)抗GPT-4 Turbo的突破口，其最大的亮點(diǎn)無(wú)疑是100萬(wàn)量級(jí)的上下文窗口長(zhǎng)度——

100萬(wàn)「長(zhǎng)文本」Tokens，相當(dāng)于可一次性處理70萬(wàn)個(gè)單詞or超過(guò)3萬(wàn)行代碼，如果折算成音頻則大約為11小時(shí)，視頻則為1小時(shí)。

無(wú)疑是很大的一個(gè)量級(jí)，而且谷歌的數(shù)據(jù)中心有能力支持運(yùn)轉(zhuǎn)。

官方的演示案例里邊使用了阿波羅11號(hào)登月項(xiàng)目長(zhǎng)達(dá)402頁(yè)的文字記錄來(lái)展示，可謂「遙遙領(lǐng)先」。

網(wǎng)友也對(duì)新的模型分享了一些十分不錯(cuò)的內(nèi)測(cè)表現(xiàn)案例，比如：

幫助鑒定Sora視頻是否由AI生成，請(qǐng)列舉關(guān)鍵證據(jù)——

Gemini Pro 1.5對(duì)此回答：「這可能是AI生成的視頻，貓咪毛發(fā)過(guò)于完美?！?/p>

大模型還可以在一段NBA扣籃大賽的視頻中，判斷出誰(shuí)的扣籃得分最高，并給出扣籃方式的細(xì)節(jié)描述。

谷歌Gemini Pro 1.5還支持多個(gè)文檔同時(shí)解讀，比如將《星際穿越》和《星際探索》兩部電影的完整腳本，合計(jì)接近10萬(wàn)個(gè)Tokens。

大模型只花了30多秒就給出了兩部影片腳本的差異性。

可以說(shuō)，谷歌整體是沒(méi)有讓大伙失望的。

這還沒(méi)完，最高能的應(yīng)用案例來(lái)了！

沒(méi)想到Gemini Pro 1.5還能看懂視頻里邊的代碼腳本，并且給出BUG修改意見(jiàn)——

一位國(guó)外網(wǎng)友在編寫(xiě)網(wǎng)頁(yè)前端代碼時(shí)故意留下3個(gè)BUG。

他將代碼編寫(xiě)的過(guò)程用手機(jī)錄制下來(lái)，再外加代碼庫(kù)打包成一個(gè)文件一并丟給Gemini 1.5 Pro解讀。大模型完全正確地給出了三處BUG的正確修復(fù)代碼。

全網(wǎng)嘩然!「長(zhǎng)文本」加持的Gemini Pro前途不可限量??！

隨著Gemini 1.5 Pro API的全面開(kāi)放應(yīng)用，相信很快就會(huì)有牛人打造更強(qiáng)大的AI應(yīng)用，讀懂一切音視頻，幫助人類(lèi)快速邁向「AGI時(shí)代」。

查看相關(guān)話(huà)題： #Gemini #谷歌

相關(guān)文章

量子位

原創(chuàng)作者

知名AI科技媒體

作者已發(fā)布 131 篇文章

近期文章

OpenAI滿(mǎn)血版o1劇透：數(shù)學(xué)代碼能力再破天花板，已開(kāi)啟測(cè)試評(píng)估

「國(guó)產(chǎn)Sora」最新升級(jí)！《沙丘》級(jí)大片視效，人人都能免費(fèi)體驗(yàn)

我們用豆包視頻大模型，生成了AI版的《紅樓夢(mèng)》MV

金山發(fā)布WPS 365辦公套件，打造ToB企業(yè)全場(chǎng)景一站式AI辦公工作流新模式

馬斯克預(yù)測(cè)：AI人工智能技術(shù)最快將在兩年內(nèi)超越地表最聰明的人類(lèi)智商

亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

谷歌Gemini 1.5 Pro API免費(fèi)耍

谷歌最強(qiáng)大模型，能干的不止文稿分析

谷歌最強(qiáng)大模型，能干的不止文稿分析