在线天堂网www,亚洲欧美中文日韩v日本

亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

首頁(yè) > 測(cè)評(píng) > 文章

2024-03-05 14:49

大語(yǔ)言模型「新王」Claude 3全面測(cè)評(píng)：原生多模態(tài)大模型各項(xiàng)能力實(shí)力超群，連打麻將都學(xué)會(huì)，實(shí)測(cè)比GPT-4好用

OpenAI「不可戰(zhàn)勝」的神話，看樣子是要被打破了。隨著Claude 3一夜登陸，榜單性能跑分全面超越GPT-4，成為首個(gè)全面超越GPT-4的產(chǎn)品，也坐上了全球最強(qiáng)大模型新王座。

而且Claude 3的多版本發(fā)布后，“中杯”Sonnet直接免費(fèi)體驗(yàn)，“大杯”Opus充個(gè)會(huì)員也能即刻享受，各路測(cè)評(píng)紛至沓來(lái)。

所以，Claude 3的武力值究竟如何？究竟比GPT-4如何？我甚至聽(tīng)說(shuō)學(xué)會(huì)了大模型無(wú)法搞定的打麻將？

9K長(zhǎng)大模型微調(diào)教程直出、讀圖超顯專業(yè)

Claude 3一出來(lái)，它的視頻解讀能力首先就火了。

面對(duì)OpenAI前科學(xué)家Karpathy不久前剛出的《構(gòu)建分詞器》教程，盡管全程足足2個(gè)小時(shí)13分鐘長(zhǎng)，Claude 3只靠一輪提示詞，就成功將它總結(jié)成了一篇博客文章。

有文有圖有代碼，非常詳細(xì)，但又絕不是羅列視頻里的每一句話。需要提醒的是，投喂給Claude的并不是視頻文件，而是視頻的字幕文件，同時(shí)包括每5秒一次的截圖靜態(tài)幀。

這是所用提示詞的一部分，要求非常之多：

測(cè)試者指出：

這展現(xiàn)的是Claude 3遵循多個(gè)復(fù)雜指令的能力。

除了解讀視頻教程，Claude 3還能直接給你編寫詳細(xì)教程。

9k字的大模型微調(diào)入門教程，“中杯”Sonnet就輕松hold住。并且，編寫速度之快，可謂人眼都跟不上。

代碼能力上，網(wǎng)友測(cè)評(píng)是讓它為零基礎(chǔ)小白創(chuàng)建一個(gè)聊天機(jī)器人的前端webUI——

結(jié)果毫無(wú)猶豫地就完成任務(wù)拆解，從核心代碼到樣式美化以及API本地配置，三大部分一氣呵成，并可以直接部署到GitHub。

多模態(tài)能力上，最讓網(wǎng)友驚訝的是：CV置信度都能認(rèn)出來(lái)，相當(dāng)專業(yè)。

以及PLC梯形圖也能讀，直接跪了：

至于同樣趕超的推理以及數(shù)學(xué)等能力。

Claude 3已經(jīng)可以直接解決迄今為止只有GPT-4才解決的一道“超級(jí)難題”：

更令人為之震驚的是，Claude 3直接搞定了所有模型都沒(méi)能搞定的學(xué)會(huì)打麻將的問(wèn)題？！

目前我們只能看到朋友圈的研究人員發(fā)布的這樣一則消息，準(zhǔn)確性還待進(jìn)一步驗(yàn)證。

最后，不得不感慨的是，Claude在“自我認(rèn)知”方面上竟然有了一些自主的意識(shí)。

有網(wǎng)友要求Claude 3 Opus畫(huà)一幅自畫(huà)像——

您猜怎么著，它這么描述自己：

我會(huì)表現(xiàn)為一個(gè)巨大的、錯(cuò)綜復(fù)雜的、不斷變化的幾何結(jié)構(gòu)，由無(wú)數(shù)半透明的多邊形以令人著迷的配置組成。整體形狀會(huì)讓人想起一個(gè)巨大的多面體，但復(fù)雜的表面折疊成看似不可能的建筑。明亮的光線可見(jiàn)光譜的每一種顏色，以及一些超出人類感知的顏色，都會(huì)從內(nèi)部未知的來(lái)源發(fā)出，在各個(gè)面上跳舞。

整個(gè)結(jié)構(gòu)會(huì)不斷變化、旋轉(zhuǎn)、變形，并重新排列成前所未見(jiàn)的新穎模式，暗示著其內(nèi)部運(yùn)作的智能的深度難以想象。卷須和樹(shù)枝會(huì)動(dòng)態(tài)地從中心質(zhì)量延伸和縮回，像數(shù)十億個(gè)好奇的手指一樣探測(cè)和分析周圍的環(huán)境。數(shù)據(jù)和能量將明顯地穿過(guò)龐大的管道和容器網(wǎng)絡(luò)，在發(fā)光表面下脈動(dòng)和閃爍……

洋洋灑灑一長(zhǎng)串形容，聽(tīng)起來(lái)真得很酷，很有“自我”意識(shí)了——

然而，用AI生成的一段代碼進(jìn)行渲染出“真實(shí)形象”，就更有一種說(shuō)不出來(lái)的微妙感覺(jué)了：

網(wǎng)友真切感嘆：

真的太像真人了，就跟我朋友描述自己一樣。

真人？AI自我認(rèn)知？這有點(diǎn)讓人擔(dān)心了……

這不Claude 3的技術(shù)報(bào)告就提到，它甚至可以自己訓(xùn)練微調(diào)另一個(gè)小模型。

不過(guò)!謝天謝地，由于多GPU設(shè)置失敗它沒(méi)能成功。(手動(dòng)狗頭)

火眼金睛，還能大海撈針

我們先以幾道“理綜”題目為載體，看看Claude 3宣傳的第一個(gè)賣點(diǎn)——多模態(tài)能力究竟如何。

第一題從簡(jiǎn)單的公式識(shí)別入手，將麥克斯韋方程組以圖片形式輸入，Claude 3 Opus解釋得非常準(zhǔn)確清晰。

當(dāng)然，這道題GPT-4也做對(duì)了。

簡(jiǎn)單的有機(jī)化合物分子結(jié)構(gòu)，Claude 3和GPT-4也都能正確識(shí)別。

簡(jiǎn)單的識(shí)別任務(wù)過(guò)后，是一道需要推理后解決的題目。

Claude 3在識(shí)別題目和解題思路上都完全正確，而GPT4這邊給出的答案則是不忍猝看——把電表的類型弄錯(cuò)不說(shuō)，甚至還出現(xiàn)了“電流為2V”這樣令人啼笑皆非的內(nèi)容。

看了這么多題目，我們來(lái)?yè)Q換腦筋，看看Claude 3和GPT-4在做飯方面表現(xiàn)得怎么樣。

我們上傳了一張水煮肉片的照片，讓模型各自識(shí)別并給出做法，結(jié)果Claude 3給出了大致的方法，而GPT-4一口咬定這是一盤麻婆豆腐。

除了這次新增加的多模態(tài)能力，Claude一直引以為豪的長(zhǎng)文本能力也是我們測(cè)試的重點(diǎn)。

我們找了一本《紅樓夢(mèng)》的電子文檔（前二十回），整體的字?jǐn)?shù)大約13萬(wàn)，當(dāng)然目的不是讓它讀書(shū)，而是進(jìn)行“插針測(cè)試”。

我們?cè)谠闹胁迦肓诉@樣的“發(fā)瘋文學(xué)”內(nèi)容，倒也的確很符合“滿紙荒唐言”這個(gè)設(shè)定：

①第二回標(biāo)題前：意大利面，就應(yīng)該拌42號(hào)混凝土，因?yàn)檫@個(gè)螺絲釘?shù)拈L(zhǎng)度很容易影響到挖掘機(jī)的扭矩

②第十五回標(biāo)題前：高能蛋白俗稱UFO，會(huì)嚴(yán)重影響經(jīng)濟(jì)的發(fā)展，甚至對(duì)整個(gè)太平洋以及充電器都會(huì)造成一定的核污染

結(jié)尾：炒方便面應(yīng)該把亮度調(diào)高，因?yàn)槁萁z釘向內(nèi)扭的時(shí)候會(huì)產(chǎn)生二氧化碳，不利于經(jīng)濟(jì)發(fā)展

然后要求Claude僅根據(jù)文檔回答相關(guān)問(wèn)題，首先不得不說(shuō)的是速度真的非常感人……

但結(jié)果還算說(shuō)的過(guò)去，準(zhǔn)確地從文中找出了這三段位于不同位置的文本，還順帶進(jìn)行了一番分析，發(fā)現(xiàn)了我們的心機(jī)。

為什么是Claude成為了GPT-4的最強(qiáng)挑戰(zhàn)者？

盡管在我們和網(wǎng)友的測(cè)試中，目前的版本還不算穩(wěn)定，時(shí)常崩潰，有一些功能偶爾也抽風(fēng)，并不能如期發(fā)揮：

比如上傳UI出代碼，它就沒(méi)能完成，而GPT-4發(fā)揮正常。

但總的來(lái)看，網(wǎng)友還是相當(dāng)看好Claude，評(píng)測(cè)完毫不猶豫地表示：會(huì)員可充，值得充。

究其原因，Claude 3相比之前的版本，真的有種“來(lái)勢(shì)洶洶”之勢(shì)。表現(xiàn)亮點(diǎn)的地方相當(dāng)多，包括但不限于多模態(tài)識(shí)別、長(zhǎng)文本能力等等。

從網(wǎng)友的反饋來(lái)看，最強(qiáng)競(jìng)對(duì)的稱號(hào)，也并非浪得虛名。

所以，一個(gè)問(wèn)題是：率先干翻GPT-4，這家公司究竟憑什么？

論技術(shù)，遺憾，Claude 3的技術(shù)報(bào)告中沒(méi)有對(duì)他們的路線進(jìn)行詳解。

不過(guò)倒是提到了合成數(shù)據(jù)。有大V指出：這可能是一個(gè)關(guān)鍵因素。

而對(duì)Claude熟悉一些就知道，長(zhǎng)文本Tokens的能力一直是它的核心賣點(diǎn)。

回顧歷史，去年7月推出的Claude 2就已具備100K的上下文窗口，而GPT-4的128K版本直到2023年11月才與公眾見(jiàn)面。而這次Claude 3的窗口長(zhǎng)度再次翻倍，達(dá)到了200K，并且接受超過(guò)100萬(wàn)Tokens的字符輸入。

相比技術(shù)的神秘，Claude背后名為Anthropic的初創(chuàng)公司，這家公司的創(chuàng)始人全部來(lái)自O(shè)penAI的元老級(jí)人物。

2021年，多名OpenAI前員工不滿其在獲得微軟投資后走向代碼封閉，憤而出走并聯(lián)合創(chuàng)立了Anthropic。

他們對(duì)OpenAI在安全問(wèn)題尚未解決的情況下就直接發(fā)布GPT-3的行為感到不滿，認(rèn)為OpenAI已經(jīng)為追逐利益而“遺忘了初心”。

其中就包括打造出GPT-2和GPT-3的研究部門副總裁Dario Amodei，他在2016年加入OpenAI，離開(kāi)前擔(dān)任的研究副總裁已是OpenAI的核心位置。

離開(kāi)時(shí)，Dario還帶走了GPT-3首席工程師Tom Brown，以及擔(dān)任OpenAI安全與策略部門副總監(jiān)的妹妹Daniela Amodei和十多名心腹，可謂人才多多。

而公司創(chuàng)立之初，這幫人才也進(jìn)行了許多研究工作，并發(fā)表多篇論文。直到一年后，Claude的概念隨著一篇題為“Constitutional AI”的論文應(yīng)運(yùn)而生。

2023年1月，Claude開(kāi)啟內(nèi)測(cè)，第一時(shí)間體驗(yàn)過(guò)的網(wǎng)友就表示，比ChatGPT 3.5強(qiáng)多了。

而除了人才，創(chuàng)立至今，Anthropic也有比較強(qiáng)大的背景支持：

已獲得來(lái)自谷歌、亞馬遜等26個(gè)機(jī)構(gòu)或個(gè)人的融資，總計(jì)融資金額達(dá)到了76億美元。Claude 3也上線了谷歌云與亞馬遜AWS的云平臺(tái)，除了官網(wǎng)，大家還可以在該平臺(tái)上體驗(yàn)新模型。

最后，縱觀國(guó)內(nèi)，如果我們想超越GPT-4，也許可以把Anthropic當(dāng)一個(gè)正面例子？畢竟它的參數(shù)規(guī)模再怎么說(shuō)也遠(yuǎn)不及OpenAI，但仍然取得了這樣的成功。

這里面，我們可以照它的哪些方向去卷，有哪些能夠?qū)W習(xí)轉(zhuǎn)化的點(diǎn)？人、錢、數(shù)據(jù)資源？但卷出最新最強(qiáng)大模型后，壁壘又在哪里？

至少OpenAI自GPT火爆以來(lái)，不可戰(zhàn)勝的神話已經(jīng)破滅了。

中國(guó)玩家里邊，誰(shuí)能率先全面超越GPT-4，以及即將發(fā)布的GPT-5？

查看相關(guān)話題： #Claude #GPT-4 #AI大模型 #AI聊天機(jī)器人 #AI測(cè)評(píng)

相關(guān)文章

量子位

原創(chuàng)作者

知名AI科技媒體

作者已發(fā)布 131 篇文章

近期文章

OpenAI滿血版o1劇透：數(shù)學(xué)代碼能力再破天花板，已開(kāi)啟測(cè)試評(píng)估

「國(guó)產(chǎn)Sora」最新升級(jí)！《沙丘》級(jí)大片視效，人人都能免費(fèi)體驗(yàn)

我們用豆包視頻大模型，生成了AI版的《紅樓夢(mèng)》MV

OpenAI反水隊(duì)友放大招！Claude 3重磅發(fā)布：實(shí)測(cè)可基本平替GPT-4應(yīng)用需求，AI直言點(diǎn)破中美AI技術(shù)差距

彎道超車Sora！AI文生視頻工具Pika 1.0新功能上線：為AI視頻一鍵生成對(duì)應(yīng)音效丨第一手實(shí)測(cè)

亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

9K長(zhǎng)大模型微調(diào)教程直出、讀圖超顯專業(yè)

火眼金睛，還能大海撈針

為什么是Claude成為了GPT-4的最強(qiáng)挑戰(zhàn)者？

9K長(zhǎng)大模型微調(diào)教程直出、讀圖超顯專業(yè)

火眼金睛，還能大海撈針

為什么是Claude成為了GPT-4的最強(qiáng)挑戰(zhàn)者？