亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

首頁 > 資訊 > 文章

2024-03-08 13:47

GPT-4王冠沒掉！Claude 3競技場人類投票成績出爐：僅居第三

Claude 3的競技場排名終于來了：

短短3天內(nèi)，20000張投票，將榜單的流量推向空前。

最終，Claude 3最強的“大杯”模型Opus得分1233.成為第一個能和GPT-4-Turbo一較高下的選手。

“中杯”Sonnet也還不錯，和GPT-4的兩個舊版本不相上下。

不過總的來說，還是GPT-4系列占據(jù)上風(fēng)。

Claude 3的表現(xiàn)和宣傳有些許出入。如網(wǎng)友總結(jié)：

GPT-4還是大模型之王!

但，免費的“中杯”Claude 3(Sonnet)更物超所值。

大模型競技場出爐，“新王”排第三

Claude 3發(fā)布時官方的宣傳是全面超過了GPT-4.但沒提是哪個版本的GPT-4.

競技場榜單(LMSYS Chatbot Arena Leaderboard)的最新更新，幫咱摸清了。

來看詳細(xì)情況。

排在第一名的是OpenAI去年11月推出的GPT-4 Turbo，也就是：

GPT-4-1106-preview。

它功能更強價格也更便宜，具有128k上下文，訓(xùn)練數(shù)據(jù)從此前的2021年9月更新到2023年4月。

與它并列第一的是GPT-4 Turbo最新的版本，今年一月發(fā)布的：

GPT-4-0125-preview

它的訓(xùn)練數(shù)據(jù)更廣，擴展到了2023年12月。

兩者均取得了1251的分?jǐn)?shù)。

接著才是Claude 3(訓(xùn)練數(shù)據(jù)截止到2023年8月)。

它的最強版本Opus得分1233.比GPT-4 Turbo低了18分。

這個差距相比起來不算太大，畢竟再往下看：

它比GPT-4的兩個版本(0314、0613)分別高了48分、72分。

至于中等性能的Claude 3 Sonnet，則排名第6.位于GPT-4這兩個版本之間：

不過只比0314版低5分，大有潛力一舉超越。

所以總的來說，官方宣傳的也算沒大毛病，全面超越老版GPT-4.但離GPT-4 Turbo還有點距離，盡管不算太大。

——從此榜單的評比機制等情況來看，它的結(jié)果還是相當(dāng)有業(yè)內(nèi)認(rèn)可度的。

它由“小羊駝”(Vicuna)的作者團隊發(fā)起。

但裁判官不是“小羊駝”，更不是GPT-4.而是基于人類偏好。

詳細(xì)來說，也就我們隨機向兩個匿名模型提出任意問題，然后評價它們各自的回答，把票投給更好的那一個。

如果一輪投不出，咱可以選擇繼續(xù)提問。如果聊天中模型不小心透露了自己的身份，投票則作廢。

特別的，計分規(guī)則采用Elo機制來保證公平(玩王者榮耀的朋友都熟)。

舉個例子：如果某個模型輸了，但它的分?jǐn)?shù)不一定低，因為它本身實力就弱，這是預(yù)料之中。

截止目前，這個榜單可以說是非常火爆，已經(jīng)有全球73個模型參與挑戰(zhàn)，共收到了網(wǎng)友們37萬張+投票。

通義千問擠進前10

除了Claude 3.我們再看看其他表現(xiàn)亮眼的選手。

首先要提的就是基于Gemini Pro的Bard，排名第四，僅次于GPT-4Turbo和Claude 3.

可以說是有點讓人驚喜。

網(wǎng)友戲謔：

谷歌這是生生在在排行榜上開了個“洞”啊。

并連忙艾特JeffDean和DeepMind負(fù)責(zé)人：喂，加把勁兒啊(旺柴)

然后要說的就是阿里通義千問(1.5版本，上個月發(fā)布)。

它在本次排名中擠進了前十、并列第九，是國內(nèi)選手中表現(xiàn)最好的。

被它甩在身后的，除了其他國產(chǎn)選手，還有Claude 2、Gemini Pro和GPT-3.5等等。

8

查看相關(guān)話題： #生成大模型 #claude 3 #chatgpt #GPT-4

相關(guān)文章

原創(chuàng)作者

知名AI科技媒體

作者已發(fā)布 131 篇文章

近期文章

更多

OpenAI滿血版o1劇透：數(shù)學(xué)代碼能力再破天花板，已開啟測試評估

OpenAI滿血版o1劇透：數(shù)學(xué)代碼能力再破天花板，已開啟測試評估

「國產(chǎn)Sora」最新升級！《沙丘》級大片視效，人人都能免費體驗

「國產(chǎn)Sora」最新升級！《沙丘》級大片視效，人人都能免費體驗

我們用豆包視頻大模型，生成了AI版的《紅樓夢》MV

我們用豆包視頻大模型，生成了AI版的《紅樓夢》MV

谷歌Gemini新功能上線：可針對回復(fù)進行重新生成、縮短文段、擴充指定的聊天內(nèi)容

上一篇

硅谷版“羅密歐與朱麗葉”：馬斯克vs奧特曼的愛恨情仇丨從兄弟同心到對薄公堂，8年發(fā)生了什么？

下一篇

<pre id="la7xj"><strong id="la7xj"></strong></pre>

<blockquote id="la7xj"><p id="la7xj"></p></blockquote>

<sup id="la7xj"></sup>