馬斯克旗下xAI的多模態(tài)模型Grok-1.5V突然發(fā)布!輕松讀懂梗圖,對(duì)現(xiàn)實(shí)世界的理解力超越GPT-4V
以下文章節(jié)選自丨智東西
馬斯克近期可謂大動(dòng)作連連!
剛剛宣布推出開(kāi)源Grok-1.0大模型,并且發(fā)布新一代Grok-1.5版本,馬斯克旗下的大模型創(chuàng)企xAI就再次發(fā)布了一款多模態(tài)大模型Grok-1.5V。
這也是該公司首個(gè)多模態(tài)具備視覺(jué)能力的大模型,直接對(duì)標(biāo)OpenAI的GPT-4V。
除了文本生成能力以外,Grok AI現(xiàn)在還可以處理各種各樣的視覺(jué)信息,包括文檔、圖表、圖表、屏幕截圖、照片,并能進(jìn)行多學(xué)科的推理任務(wù)。
xAI官方重點(diǎn)展示了新模式「Grok-1.5V」的7個(gè)視覺(jué)認(rèn)知案例,在介紹之前讓我們先來(lái)看下官方給的測(cè)評(píng)跑分成績(jī)。
xAI曬出與GPT-4V、Claude 3 Sonnet、Claude 3 Opus、谷歌Gemini Pro 1.5相比,Grok-1.5V的表現(xiàn)打得有來(lái)有往,在某些基準(zhǔn)測(cè)試項(xiàng)目甚至略勝一籌。
在對(duì)標(biāo)業(yè)界標(biāo)桿GPT-4V的成績(jī),大部分測(cè)評(píng)基準(zhǔn)都有領(lǐng)先。
值得一提的是,在真實(shí)世界空間理解能力「RealWorldQA」的QA基準(zhǔn)測(cè)試中,Grok明顯優(yōu)于其他同類模型。
自從2023年11月xAI發(fā)布AI聊天機(jī)器人Grok以來(lái),老馬的團(tuán)隊(duì)就在不斷加速追趕OpenAI的步伐。目前馬斯克掌控的推特(X)平臺(tái)獨(dú)家向Grok提供訓(xùn)練數(shù)據(jù)。
官方發(fā)布了一系列Grok-1.5V的實(shí)戰(zhàn)案例:
提供一張手繪的流程圖,讓Grok將手繪圖轉(zhuǎn)換成Python代碼。這里邊首先需要讀懂手寫(xiě)體內(nèi)容,并創(chuàng)建代碼規(guī)則。
Grok返回內(nèi)容:
「當(dāng)然!您提供的流程圖描述了一個(gè)簡(jiǎn)單的猜謎游戲,其中計(jì)算機(jī)生成一個(gè)隨機(jī)數(shù),用戶必須猜測(cè)它。
下面為Python代碼編寫(xiě)的邏輯流程圖。」
「這段代碼將運(yùn)行流程圖中描述的猜謎游戲。用戶將被提示輸入他們的猜測(cè),直到他們猜對(duì)了數(shù)字?!?/p>
提問(wèn):「圖中這個(gè)菜譜,5片這個(gè)(菜品)一共有多少卡路里?」
Grok回復(fù):
「如果一份是3片,含有60卡路里,那么5片就含有大約100卡路里。這是通過(guò)首先確定每片的卡路里來(lái)計(jì)算的:60卡路里/3片=每片20卡路里。然后,將每片的卡路里乘以片數(shù):每片20卡路里×5片= 100卡路里?!?/p>
根據(jù)上傳的圖像,Grok創(chuàng)作一個(gè)睡前故事。
“啪~”的一下!
很快啊~來(lái)看看這個(gè)故事你喜歡嗎?
翻譯:
Grok編的故事
很久很久以前,在一片充滿冒險(xiǎn)和奇跡的土地上,有一個(gè)勇敢的小男孩,名叫蒂米。蒂米和家人住在一個(gè)舒適的小房子里,他最喜歡探索周?chē)氖澜纭?/p>
一個(gè)陽(yáng)光明媚的日子,蒂米決定去附近的森林里冒險(xiǎn)。他收拾了他最喜歡的零食、指南針和他值得信賴的筆記本,畫(huà)下了他將要看到的所有令人興奮的東西。
當(dāng)?shù)倜酌半U(xiǎn)深入森林時(shí),他發(fā)現(xiàn)了一條在陽(yáng)光下閃閃發(fā)光的神奇河流。這條河是如此迷人,以至于蒂米決定建造一艘小紙船,順流而下,作為對(duì)森林精靈的特殊信息。
蒂米小心翼翼地折疊他的紙船,并在上面畫(huà)了一個(gè)笑臉,給森林精靈帶來(lái)歡樂(lè)。然后,他把船放在河上,看著它飄走,帶著他對(duì)友誼和對(duì)大自然的熱愛(ài)的信息。
當(dāng)太陽(yáng)開(kāi)始落山時(shí),蒂米知道是時(shí)候回家了。他對(duì)自己在森林里度過(guò)的神奇一天感到感激,他知道他將永遠(yuǎn)把冒險(xiǎn)的記憶銘記在心。
回到家里,蒂米與家人分享了他的故事,他們很高興聽(tīng)到他在森林里神奇的一天。他們都認(rèn)為蒂米的勇敢和善良的精神是真正的靈感來(lái)源,他們知道他將來(lái)會(huì)繼續(xù)有更多精彩的冒險(xiǎn)。
于是,帶著一顆充滿愛(ài)的心和一顆充滿夢(mèng)想的頭腦,蒂米漸漸睡著了,渴望發(fā)現(xiàn)在他想象的世界中等待著他的新冒險(xiǎn)。
給Grok上傳一張知名的網(wǎng)絡(luò)迷因梗圖,它也能“秒懂”人類的幽默感。
Grok很顯然能讀懂人性的本質(zhì)。
「這張圖片是對(duì)初創(chuàng)公司和大公司的幽默比較。在左邊標(biāo)有“初創(chuàng)公司”的地方,有一群人在一起挖洞。他們都在積極參與,這個(gè)洞已經(jīng)相當(dāng)深了。
在右邊標(biāo)有“大公司”的地方,有一群人站在一個(gè)洞周?chē)?。然而,與創(chuàng)業(yè)方不同的是,實(shí)際上只有一個(gè)人在挖洞,而其他人則在觀看或從事其他活動(dòng)。
這幅圖中的幽默來(lái)自于對(duì)初創(chuàng)公司和大公司之間差異的夸大。在創(chuàng)業(yè)公司,通常有一種緊迫感,每個(gè)人都被期望直接為手頭的任務(wù)做出貢獻(xiàn)。相比之下,大公司通常被描述為有更多的官僚主義,并且每個(gè)項(xiàng)目中所有團(tuán)隊(duì)成員的直接參與較少?!?/p>
要求Grok將下圖這張表格轉(zhuǎn)換成CSV格式。
Grok隨即輸出以純文本格式顯示的CSV文檔。
上傳圖像,可以讓Grok幫助解決生活中的日常問(wèn)題。
比如上傳一張甲板破損的照片,并詢問(wèn):
「這些洞出現(xiàn)在我甲板上的螺絲周?chē)?。它爛了嗎?我應(yīng)該換電路板嗎?」
Grok回復(fù)說(shuō):
「看起來(lái),你的甲板上的木頭已經(jīng)開(kāi)始腐爛了。螺絲周?chē)卸幢砻髁诉@一點(diǎn),這是木頭腐爛的常見(jiàn)跡象。
為確保甲板的安全和使用壽命,建議更換受影響的甲板。這將有助于防止甲板進(jìn)一步受損,并保持其結(jié)構(gòu)完整性。
如果您不確定如何繼續(xù)更換板,咨詢專業(yè)的甲板建造商或承包商可能會(huì)有所幫助。他們將能夠評(píng)估損壞的程度,并為您的甲板提供最佳行動(dòng)方案的專家建議?!?/p>
作為一款通用大模型,Grok自然也可以進(jìn)行代碼BUG糾錯(cuò)。
讓Grok使用Python解決上面出現(xiàn)的代碼問(wèn)題,Grok的輸出如下——
xAI團(tuán)隊(duì)認(rèn)為,推進(jìn)其多模態(tài)理解和生成能力是構(gòu)建能夠理解宇宙的有益AGI的重要步驟。
在接下來(lái)的幾個(gè)月里,xAI預(yù)計(jì)將在圖像、音頻、視頻等各種模態(tài)上對(duì)這兩種功能進(jìn)行重大改進(jìn)。
在剛剛過(guò)去的一個(gè)月,xAI相繼宣布將Grok-1.0開(kāi)源、推出128K「長(zhǎng)文本」Grok-1.5、推出Grok-1.5V多模態(tài)大模型三項(xiàng)重要進(jìn)展。官方宣布,Grok-1.5V很快將提供給內(nèi)測(cè)玩家以及Grok AI的付費(fèi)用戶。