亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

首頁(yè)  >  資訊  >  文章
2023-11-10 17:09

國(guó)產(chǎn)大模型輪番碾壓ChatGPT?AI大模型跑分“作弊”的事,終于有人說出真相

圖片

11月6日,伴隨OpenAI慶祝ChatGPT上線一周年暨開發(fā)者大會(huì),我們邁過了「AI元年」。今年層出不窮的AIGC工具和軟件,讓大家的工作效率提升了不止一點(diǎn)點(diǎn)。

上半年,大模型滿天飛,下半年,應(yīng)用紛紛落地。但凡稍微大一點(diǎn)的互聯(lián)網(wǎng)公司,沒有推出“自研大模型”,創(chuàng)始人名字都得倒著寫。

最近,手機(jī)廠商和芯片大廠紛紛進(jìn)場(chǎng)打榜,發(fā)布會(huì)一開,個(gè)個(gè)都是「跨越式突破」,每家都是「排行第一」。要么是打破了Benchmark測(cè)評(píng)基準(zhǔn)的歷史記錄;要么是在前邊加若干前綴,比如實(shí)現(xiàn)了「×億內(nèi)」參數(shù)量的第一名。

在這里,EVA就不點(diǎn)名了。

圖片

在興奮于技術(shù)進(jìn)展迅速之余,有一些人發(fā)現(xiàn)了一點(diǎn)異常——

EVA曾經(jīng)將“AI大模型打榜”這種行為譽(yù)為「不服跑個(gè)分3.0時(shí)代」。

關(guān)注手機(jī)圈的家人們,都經(jīng)歷過“娛樂兔”和DxOMark這兩個(gè)「跑分大戰(zhàn)」的階段。

圖片

越來越多人開始發(fā)出疑問,語言模型測(cè)評(píng)Benchmark這種東西,到底靠不靠譜?

直到近日,知乎上有一個(gè)帖子引起了大家的廣泛關(guān)注。

文章標(biāo)題是:《如何評(píng)價(jià)天工大模型技術(shù)報(bào)告中指出很多大模型用領(lǐng)域內(nèi)數(shù)據(jù)刷榜的現(xiàn)象?》

圖片

是的,就是所謂的“大模型刷榜”。但凡經(jīng)歷過一些電商圈毒打的家人,都應(yīng)該聽說過“刷評(píng)”“刷贊”這種行為。

如果將AI轉(zhuǎn)為人類的角度理解,已知消費(fèi)者對(duì)商品評(píng)價(jià)敏感,商家發(fā)動(dòng)幾百個(gè)人,為自己的商品進(jìn)行不同方式的“刷榜”,最終營(yíng)造一個(gè)非常卓越的靚麗評(píng)論區(qū)與輿情環(huán)境。

我們繞回來,國(guó)內(nèi)AI模型公司昆侖萬維的「天工」大模型團(tuán)隊(duì),在上個(gè)月發(fā)布了一篇技術(shù)論文。

圖片

論文當(dāng)中,揭開了多家大模型“刷榜”的機(jī)制。

AI大模型如何“刷榜”?

論文本身,其實(shí)是介紹天工的自研大模型Skywork-13B。

按照慣例,新誕生的大模型需要解釋自己的研究方法,作者表示在流行的語言模型測(cè)評(píng)基準(zhǔn)上,他們的模型在很多中文的分支任務(wù)上取得了“業(yè)內(nèi)最佳”。此外,他們還引入了一種新的測(cè)評(píng)方法——與測(cè)評(píng)題目的“標(biāo)準(zhǔn)答案”進(jìn)行查重。

有趣的是,這篇論文還利用同樣的機(jī)制驗(yàn)證了許多主流大模型的真實(shí)效果,指出了一些很有名氣的開源國(guó)產(chǎn)大模型存在“投機(jī)取巧”的嫌疑。

我們來看論文里邊的這個(gè)表格:

圖片

這里邊有幾家模型,大家多少都有所耳聞。比如:智譜AI的ChatGLM、百川的Baichuan 2、復(fù)旦的MOSS、Meta的LLaMa……

論文作者在訓(xùn)練大模型的時(shí)候使用了一種檢驗(yàn)機(jī)制,為了驗(yàn)證業(yè)內(nèi)幾個(gè)知名大模型回答數(shù)學(xué)問題的答案相似度,他先使用GPT-4生成了答案樣本,人工核對(duì)了回答的正確性,并且讓其他的模型也對(duì)這些題目生成回答。

作者將數(shù)學(xué)題冊(cè)的訓(xùn)練集問題與答案,與大模型們生成的答案進(jìn)行比對(duì),用統(tǒng)計(jì)學(xué)的方法,計(jì)算里邊的逐字逐句與GPT-4答案以及數(shù)學(xué)題訓(xùn)練集的吻合率。

結(jié)果他得到了一個(gè)“驚人的結(jié)論”——如果大模型沒有用測(cè)試集進(jìn)行針對(duì)性訓(xùn)練,那么吻合率的數(shù)值應(yīng)該趨于零。

圖片

翻譯過來的“大白話”就是:

如果有的大模型在訓(xùn)練時(shí),提前拿著Benchmark基準(zhǔn)測(cè)試的題目和答案作為“學(xué)習(xí)資料”,想借由此來刷高分,那么統(tǒng)計(jì)學(xué)出來的數(shù)字就會(huì)發(fā)生異常。

好的,都是哪些模型有異常呢?

在上邊的表格里,作者已經(jīng)用灰色特意圈出來了。

換而言之,如果你在期末考之前,提前拿著考試題答案進(jìn)行復(fù)習(xí)和背誦,然后上考場(chǎng)應(yīng)試,那么因?yàn)榛貞?趕時(shí)間,你寫出來的答案理論上會(huì)十分接近于“官方答案”。這就好比大模型在訓(xùn)練時(shí)就進(jìn)行了一輪又一輪針對(duì)Benchmark“完美押題”的開卷考試,強(qiáng)迫“記憶”。

我再舉一個(gè)比較老生常談的例子:

已知物理低溫下CPU的性能可以更好地釋放,于是乎,大家都把手機(jī)放進(jìn)冰箱進(jìn)行跑分。這里還不包括提前針對(duì)Benchmark軟件的預(yù)設(shè)程序進(jìn)行“專屬優(yōu)化”。?

圖片

EVA需要強(qiáng)調(diào)的是,這種論證機(jī)制仍不足以證明大模型在訓(xùn)練時(shí)候存在“押題”或者“造假”。

此外,讓AI大模型按照開發(fā)商想要的方向進(jìn)行回答,也不止這一種方法。

EVA就曾遇到過,聊天機(jī)器人在回答到一半的時(shí)候,忽然換了一個(gè)回復(fù)。

這就能解釋,為什么會(huì)有許多家人在看完某場(chǎng)模型發(fā)布會(huì),然后自己親身體驗(yàn)后,感覺似乎跟官方宣傳的不是那么一回事兒?

怎么看待大模型“刷榜”?

事實(shí)上,針對(duì)新發(fā)布大模型進(jìn)行“刷榜”,往往有其個(gè)中無奈的商業(yè)邏輯——需要對(duì)投資人的期望給予足夠的正向反饋,或者面對(duì)用戶時(shí)展示自己的技術(shù)實(shí)力。

看完知乎全文,有網(wǎng)友對(duì)此評(píng)論道:終于有人敢將“內(nèi)幕”公之于眾了。

還有網(wǎng)友表示:大模型的智力水平,最好的辦法就是盲訓(xùn)(zero-shot)和挑戰(zhàn)一些幾乎不可能出現(xiàn)在測(cè)試集的題目。

圖片

智商不夠的EVA仔細(xì)想了一下,某“高智商貼吧”似乎又占領(lǐng)了高地??

一位答主在知乎上回復(fù)稱,他希望讓大家理性看待“刷榜”這個(gè)事情,事實(shí)上很多模型和GPT-4的差距還很大。

圖片

這一點(diǎn),360創(chuàng)始人周鴻祎曾經(jīng)在今年5月初,某家大模型公司開完發(fā)布會(huì)之后,發(fā)表過類似的觀點(diǎn)。

他說:“不經(jīng)過兩年模仿期就說「超越」GPT,那叫「吹牛」。”

9
查看相關(guān)話題: #chatgpt #AI大模型 #AI監(jiān)管 #AI跑分

相關(guān)文章