亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

首頁(yè)  >  資訊  >  文章
2024-07-22 17:58

阿里通義Qwen2、GPT-4o等大廠模型開(kāi)展2024高考全科測(cè)評(píng):來(lái)看看“AI狀元”花落誰(shuí)家?

圖片

7月17日,上海人工智能實(shí)驗(yàn)室公布了針對(duì)7款國(guó)內(nèi)外主流AI大模型的高考全科目測(cè)試結(jié)果。

本次測(cè)評(píng)的相關(guān)負(fù)責(zé)人介紹,“當(dāng)前大模型仍存在很大的局限性。組織AI大模型參加正式的高考題測(cè),可以鑒定當(dāng)前大模型的真實(shí)水平,找準(zhǔn)問(wèn)題,持續(xù)推進(jìn)技術(shù)進(jìn)步。”

圖片

現(xiàn)在將測(cè)評(píng)的全科成績(jī)結(jié)果公布如下:

測(cè)試結(jié)果顯示,書(shū)生·浦語(yǔ)2.0系列的文曲星大模型(浦語(yǔ)文曲星)、阿里通義千問(wèn)大模型Qwen2-72B以及OpenAI的GPT-4o再次包攬文科、理科前三甲;前三名「AI考生」的文科、理科成績(jī)分別超過(guò)了河南省高考今年的一本線與二本線。

之所以采用河南省的高考錄取分?jǐn)?shù)線,是因?yàn)樵撌】忌鷶?shù)量樣本足夠大,可以最準(zhǔn)確呈現(xiàn)大模型的真實(shí)水平。

本次參與「AI高考」的所有AI大模型的得分與排名情況公布如下:

圖片

據(jù)介紹,此次評(píng)測(cè)具備如下特征:

  • 全卷考試:進(jìn)行全卷評(píng)分,而不只針對(duì)單一題型,且包括帶圖的高考題
  • 考前開(kāi)源:評(píng)測(cè)覆蓋的開(kāi)源模型均為今年高考前開(kāi)源的模型,排除泄題的可能性
  • 老師打分:邀請(qǐng)有高考閱卷經(jīng)驗(yàn)的老師打分,確保評(píng)分和高考盡量一致
  • 完全公開(kāi):生成答案的代碼、模型答卷、評(píng)分結(jié)果完全開(kāi)源

在增加綜合科目的基礎(chǔ)上,阿里Qwen2-72B、GPT-4o、浦語(yǔ)文曲星包攬文科、理科前三甲。

其中,阿里Qwen2-72B 546分的成績(jī)成為了「AI高考」的“文科狀元”,浦語(yǔ)文曲星則以468.5分成為理科第一名,超越GPT-4o成為“理科狀元”。

圖片

圖片

參與本次「AI高考」的閱卷老師一致認(rèn)為:

大模型與人類考生之間仍然存在明顯的差距,雖然AI對(duì)于基礎(chǔ)知識(shí)的掌握表現(xiàn)出色,但在邏輯推理和知識(shí)靈活應(yīng)用方面,大模型仍然差強(qiáng)人意。

具體而言,在作答主觀題時(shí),大模型往往無(wú)法完整理解題干,不明白代詞指向,結(jié)果導(dǎo)致答非所問(wèn);解答數(shù)學(xué)題時(shí),解題過(guò)程機(jī)械且邏輯性差,對(duì)于幾何題,常出現(xiàn)與空間邏輯相違背的推斷;對(duì)物理、化學(xué)實(shí)驗(yàn)理解膚淺,無(wú)法準(zhǔn)確識(shí)別并運(yùn)用實(shí)驗(yàn)器材。

此外,大模型也會(huì)經(jīng)常出現(xiàn)偽造虛構(gòu)內(nèi)容的“AI幻覺(jué)”情況,編造看似合理但實(shí)際不存在的詩(shī)句,或在存在明顯計(jì)算錯(cuò)誤的情況下之后不反思,“硬著頭皮蒙”一個(gè)答案,均給閱卷老師批閱試卷帶來(lái)了困擾。

測(cè)評(píng)完整報(bào)告地址:https://github.com/open-compass/GAOKAO-Eval

6
查看相關(guān)話題: #AI高考 #AI大模型 #AI測(cè)評(píng)

相關(guān)文章