亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

首頁(yè)  >  資訊  >  文章
2024-04-15 15:43

馬斯克旗下xAI的多模態(tài)模型Grok-1.5V突然發(fā)布!輕松讀懂梗圖,對(duì)現(xiàn)實(shí)世界的理解力超越GPT-4V

以下文章節(jié)選自丨智東西


圖片

馬斯克近期可謂大動(dòng)作連連!

剛剛宣布推出開(kāi)源Grok-1.0大模型,并且發(fā)布新一代Grok-1.5版本,馬斯克旗下的大模型創(chuàng)企xAI就再次發(fā)布了一款多模態(tài)大模型Grok-1.5V。

這也是該公司首個(gè)多模態(tài)具備視覺(jué)能力的大模型,直接對(duì)標(biāo)OpenAI的GPT-4V。

除了文本生成能力以外,Grok AI現(xiàn)在還可以處理各種各樣的視覺(jué)信息,包括文檔、圖表、圖表、屏幕截圖、照片,并能進(jìn)行多學(xué)科的推理任務(wù)。

圖片

xAI官方重點(diǎn)展示了新模式「Grok-1.5V」的7個(gè)視覺(jué)認(rèn)知案例,在介紹之前讓我們先來(lái)看下官方給的測(cè)評(píng)跑分成績(jī)。

xAI曬出與GPT-4V、Claude 3 Sonnet、Claude 3 Opus、谷歌Gemini Pro 1.5相比,Grok-1.5V的表現(xiàn)打得有來(lái)有往,在某些基準(zhǔn)測(cè)試項(xiàng)目甚至略勝一籌。

圖片

在對(duì)標(biāo)業(yè)界標(biāo)桿GPT-4V的成績(jī),大部分測(cè)評(píng)基準(zhǔn)都有領(lǐng)先。

值得一提的是,在真實(shí)世界空間理解能力「RealWorldQA」的QA基準(zhǔn)測(cè)試中,Grok明顯優(yōu)于其他同類模型。

自從2023年11月xAI發(fā)布AI聊天機(jī)器人Grok以來(lái),老馬的團(tuán)隊(duì)就在不斷加速追趕OpenAI的步伐。目前馬斯克掌控的推特(X)平臺(tái)獨(dú)家向Grok提供訓(xùn)練數(shù)據(jù)。

官方發(fā)布了一系列Grok-1.5V的實(shí)戰(zhàn)案例:

①看圖表草圖,生成網(wǎng)頁(yè)前端代碼

提供一張手繪的流程圖,讓Grok將手繪圖轉(zhuǎn)換成Python代碼。這里邊首先需要讀懂手寫(xiě)體內(nèi)容,并創(chuàng)建代碼規(guī)則。

圖片

Grok返回內(nèi)容:

「當(dāng)然!您提供的流程圖描述了一個(gè)簡(jiǎn)單的猜謎游戲,其中計(jì)算機(jī)生成一個(gè)隨機(jī)數(shù),用戶必須猜測(cè)它。

下面為Python代碼編寫(xiě)的邏輯流程圖。」

圖片

「這段代碼將運(yùn)行流程圖中描述的猜謎游戲。用戶將被提示輸入他們的猜測(cè),直到他們猜對(duì)了數(shù)字?!?/p>

②計(jì)算菜品的卡路里

提問(wèn):「圖中這個(gè)菜譜,5片這個(gè)(菜品)一共有多少卡路里?」

圖片

Grok回復(fù):

「如果一份是3片,含有60卡路里,那么5片就含有大約100卡路里。這是通過(guò)首先確定每片的卡路里來(lái)計(jì)算的:60卡路里/3片=每片20卡路里。然后,將每片的卡路里乘以片數(shù):每片20卡路里×5片= 100卡路里?!?/p>

③根據(jù)圖像生成一個(gè)睡前故事

根據(jù)上傳的圖像,Grok創(chuàng)作一個(gè)睡前故事。

圖片

“啪~”的一下!

很快啊~來(lái)看看這個(gè)故事你喜歡嗎?

圖片

翻譯:

Grok編的故事

很久很久以前,在一片充滿冒險(xiǎn)和奇跡的土地上,有一個(gè)勇敢的小男孩,名叫蒂米。蒂米和家人住在一個(gè)舒適的小房子里,他最喜歡探索周?chē)氖澜纭?/p>

一個(gè)陽(yáng)光明媚的日子,蒂米決定去附近的森林里冒險(xiǎn)。他收拾了他最喜歡的零食、指南針和他值得信賴的筆記本,畫(huà)下了他將要看到的所有令人興奮的東西。

當(dāng)?shù)倜酌半U(xiǎn)深入森林時(shí),他發(fā)現(xiàn)了一條在陽(yáng)光下閃閃發(fā)光的神奇河流。這條河是如此迷人,以至于蒂米決定建造一艘小紙船,順流而下,作為對(duì)森林精靈的特殊信息。

蒂米小心翼翼地折疊他的紙船,并在上面畫(huà)了一個(gè)笑臉,給森林精靈帶來(lái)歡樂(lè)。然后,他把船放在河上,看著它飄走,帶著他對(duì)友誼和對(duì)大自然的熱愛(ài)的信息。

當(dāng)太陽(yáng)開(kāi)始落山時(shí),蒂米知道是時(shí)候回家了。他對(duì)自己在森林里度過(guò)的神奇一天感到感激,他知道他將永遠(yuǎn)把冒險(xiǎn)的記憶銘記在心。

回到家里,蒂米與家人分享了他的故事,他們很高興聽(tīng)到他在森林里神奇的一天。他們都認(rèn)為蒂米的勇敢和善良的精神是真正的靈感來(lái)源,他們知道他將來(lái)會(huì)繼續(xù)有更多精彩的冒險(xiǎn)。

于是,帶著一顆充滿愛(ài)的心和一顆充滿夢(mèng)想的頭腦,蒂米漸漸睡著了,渴望發(fā)現(xiàn)在他想象的世界中等待著他的新冒險(xiǎn)。

④解釋網(wǎng)絡(luò)梗圖

給Grok上傳一張知名的網(wǎng)絡(luò)迷因梗圖,它也能“秒懂”人類的幽默感。

圖片

Grok很顯然能讀懂人性的本質(zhì)。

圖片

「這張圖片是對(duì)初創(chuàng)公司和大公司的幽默比較。在左邊標(biāo)有“初創(chuàng)公司”的地方,有一群人在一起挖洞。他們都在積極參與,這個(gè)洞已經(jīng)相當(dāng)深了。

在右邊標(biāo)有“大公司”的地方,有一群人站在一個(gè)洞周?chē)?。然而,與創(chuàng)業(yè)方不同的是,實(shí)際上只有一個(gè)人在挖洞,而其他人則在觀看或從事其他活動(dòng)。

這幅圖中的幽默來(lái)自于對(duì)初創(chuàng)公司和大公司之間差異的夸大。在創(chuàng)業(yè)公司,通常有一種緊迫感,每個(gè)人都被期望直接為手頭的任務(wù)做出貢獻(xiàn)。相比之下,大公司通常被描述為有更多的官僚主義,并且每個(gè)項(xiàng)目中所有團(tuán)隊(duì)成員的直接參與較少?!?/p>

⑤將表格轉(zhuǎn)換成CSV格式

要求Grok將下圖這張表格轉(zhuǎn)換成CSV格式。

圖片

Grok隨即輸出以純文本格式顯示的CSV文檔。

圖片

⑥識(shí)圖并給出解決方案

上傳圖像,可以讓Grok幫助解決生活中的日常問(wèn)題。

比如上傳一張甲板破損的照片,并詢問(wèn):

「這些洞出現(xiàn)在我甲板上的螺絲周?chē)?。它爛了嗎?我應(yīng)該換電路板嗎?」

圖片

Grok回復(fù)說(shuō):

「看起來(lái),你的甲板上的木頭已經(jīng)開(kāi)始腐爛了。螺絲周?chē)卸幢砻髁诉@一點(diǎn),這是木頭腐爛的常見(jiàn)跡象。

為確保甲板的安全和使用壽命,建議更換受影響的甲板。這將有助于防止甲板進(jìn)一步受損,并保持其結(jié)構(gòu)完整性。

如果您不確定如何繼續(xù)更換板,咨詢專業(yè)的甲板建造商或承包商可能會(huì)有所幫助。他們將能夠評(píng)估損壞的程度,并為您的甲板提供最佳行動(dòng)方案的專家建議?!?/p>

⑦修復(fù)代碼BUG問(wèn)題

作為一款通用大模型,Grok自然也可以進(jìn)行代碼BUG糾錯(cuò)。

圖片

讓Grok使用Python解決上面出現(xiàn)的代碼問(wèn)題,Grok的輸出如下——

圖片

xAI團(tuán)隊(duì)認(rèn)為,推進(jìn)其多模態(tài)理解和生成能力是構(gòu)建能夠理解宇宙的有益AGI的重要步驟。

在接下來(lái)的幾個(gè)月里,xAI預(yù)計(jì)將在圖像、音頻、視頻等各種模態(tài)上對(duì)這兩種功能進(jìn)行重大改進(jìn)。

在剛剛過(guò)去的一個(gè)月,xAI相繼宣布將Grok-1.0開(kāi)源、推出128K「長(zhǎng)文本」Grok-1.5、推出Grok-1.5V多模態(tài)大模型三項(xiàng)重要進(jìn)展。官方宣布,Grok-1.5V很快將提供給內(nèi)測(cè)玩家以及Grok AI的付費(fèi)用戶。

9
查看相關(guān)話題: #Grok #馬斯克 #xAI #AI大模型

相關(guān)文章

一打雜的

作者已發(fā)布 419 篇文章