亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

首頁  >  測評  >  文章
2024-06-20 15:53

ChatGPT、阿里通義等AI機(jī)器人參加今年高考出分:干翻90%考生,有一科全員不及格

圖片

6月19日,上海人工智能實驗室和司南評測體系發(fā)布了國內(nèi)首個針對AI大模型參與2024高考「語數(shù)英」三科目的全卷解題能力測試的結(jié)果。

本次測試,選取了6款開源大模型以及公認(rèn)的「地表最強(qiáng)」GPT-4o進(jìn)行,考卷選擇了「全國新課標(biāo)I卷」。參與評測的所有開源模型,開源時間均早于今年的高考,成績均由擁有高考評卷經(jīng)驗的老師進(jìn)行人工閱卷評判。

圖片

讓我們先看下都有哪些選手:

  • GPT-4o:OpenAI在5月最新發(fā)布的旗艦大模型,多模態(tài)能力出眾
  • Mixtral 8x22B:法國AI創(chuàng)業(yè)公司Mistral在4月17日發(fā)布的開源模型
  • Yi-1.5-34B:零一萬物在5月12日開源的Yi-1.5系列模型
  • GLM-4-9B:智譜AI在6月開源的新一代GLM-4系列開源模型
  • InternLM2-20B-WQX:上海人工智能實驗室在6月開源的書生·浦語2.0系列文曲星大模型
  • Qwen2-57B:阿里在6月開源的Qwen 2系列MoE大模型
  • Qwen2-72B:阿里在6月開源的72B稠密大模型

測評結(jié)果顯示,通義千問Qwen2-72B、GPT-4o、書生·浦語2.0文曲星(InternLM2-20B-WQX)三款模型位列前三,得分率均超過70%。

圖片

大部分的AI模型在文字表達(dá)領(lǐng)域表現(xiàn)出彩,在語文、英語兩個文科科目上表現(xiàn)良好,但是理科考核的數(shù)學(xué)科目,目前仍然是全員不及格,其中書生·浦語2.0文曲星(InternLM2-20B-WQX)得分為75.在所有參與測試的大模型當(dāng)中最高,也超過GPT-4o的73分。

「語數(shù)英」三科加起來的總分為420分。

其中,阿里的通義千問Qwen2-72B拿到了303分,GPT-4o取得296分,書生·浦語2.0以0.5分之差屈居第三。而來自法國的“外來和尚”Mistral排名末尾,僅得到185分。

圖片

對此,我們也采訪閱卷老師們,看看他們對大模型的表現(xiàn)進(jìn)行的評價:

語文

大模型的現(xiàn)代文閱讀理解能力普遍較強(qiáng),但是不同的模型在文言文閱讀理解的能力差距較大。

大模型作文更像問答題,雖然有針對性但缺乏修飾用詞,幾乎不存在人類考生常常使用的舉例論證、引用論證、名人名言和人物素材等手法。

多數(shù)模型無法理解“本體”“喻體”“暗喻”等語文概念。漢語語言中的一些“潛臺詞”,大模型尚無法完全理解。

數(shù)學(xué)

大模型的主觀題回答相對凌亂,且過程具有迷惑性,甚至出現(xiàn)過程錯誤但得到正確答案的情況。

大模型的公式記憶能力較強(qiáng),但無法在解題過程中靈活引用。

英語

英語整體表現(xiàn)良好,但部分模型由于未經(jīng)題型特訓(xùn),在7選5、完形填空等題型得分率較低。

大模型的英語作文普遍存在因超出字?jǐn)?shù)限制而扣分的情況,而人類考生往往不夠字?jǐn)?shù)。

圖片

寫在最后

平心而論,一次高考試卷的測評,無法準(zhǔn)確衡量大模型之間的水平差異。跳出測試結(jié)果本身,這次AI大模型參與正式的高考試題測評,有何實際意義?

更多的人覺得只是新鮮與好玩。但事實上,目前AI大模型取得的分?jǐn)?shù),已經(jīng)干倒50%以上應(yīng)屆考生。

我以GPT-4o的分?jǐn)?shù)為例,「語數(shù)英」三科滿分420取得296.得分率達(dá)到70%。

那么本次測評未進(jìn)行實測的文綜/理綜會拿到210分左右的分?jǐn)?shù)?;究梢酝茢?,GPT-4o參加高考全科目考試可以取得500+的分?jǐn)?shù)。這也意味著,GPT-4o是可以摸到國內(nèi)不少省份的一本線。

摸到一本線是什么水平?

通常全省應(yīng)屆高考生有10%可以進(jìn)入一本院校,這意味著GPT-4o等AI大模型,在人類智力測評層面上已經(jīng)超越了90%的應(yīng)屆考生。

人工智能可以不吃不喝不睡覺沒有小脾氣,只需提供電力支持就可以瘋狂輸出。

ChatGPT誕生還不足兩年,英偉達(dá)已經(jīng)成為了世界上市值第一的怪物。

各位讀者家人們,細(xì)思密恐,想一想都肝顫。?

8
查看相關(guān)話題: #AI高考 #AI測評 #AI大模型 #GPT-4o

相關(guān)文章