ChatGPT、阿里通義等AI機(jī)器人參加今年高考出分:干翻90%考生,有一科全員不及格
6月19日,上海人工智能實驗室和司南評測體系發(fā)布了國內(nèi)首個針對AI大模型參與2024高考「語數(shù)英」三科目的全卷解題能力測試的結(jié)果。
本次測試,選取了6款開源大模型以及公認(rèn)的「地表最強(qiáng)」GPT-4o進(jìn)行,考卷選擇了「全國新課標(biāo)I卷」。參與評測的所有開源模型,開源時間均早于今年的高考,成績均由擁有高考評卷經(jīng)驗的老師進(jìn)行人工閱卷評判。
讓我們先看下都有哪些選手:
測評結(jié)果顯示,通義千問Qwen2-72B、GPT-4o、書生·浦語2.0文曲星(InternLM2-20B-WQX)三款模型位列前三,得分率均超過70%。
大部分的AI模型在文字表達(dá)領(lǐng)域表現(xiàn)出彩,在語文、英語兩個文科科目上表現(xiàn)良好,但是理科考核的數(shù)學(xué)科目,目前仍然是全員不及格,其中書生·浦語2.0文曲星(InternLM2-20B-WQX)得分為75.在所有參與測試的大模型當(dāng)中最高,也超過GPT-4o的73分。
「語數(shù)英」三科加起來的總分為420分。
其中,阿里的通義千問Qwen2-72B拿到了303分,GPT-4o取得296分,書生·浦語2.0以0.5分之差屈居第三。而來自法國的“外來和尚”Mistral排名末尾,僅得到185分。
對此,我們也采訪閱卷老師們,看看他們對大模型的表現(xiàn)進(jìn)行的評價:
語文
大模型的現(xiàn)代文閱讀理解能力普遍較強(qiáng),但是不同的模型在文言文閱讀理解的能力差距較大。
大模型作文更像問答題,雖然有針對性但缺乏修飾用詞,幾乎不存在人類考生常常使用的舉例論證、引用論證、名人名言和人物素材等手法。
多數(shù)模型無法理解“本體”“喻體”“暗喻”等語文概念。漢語語言中的一些“潛臺詞”,大模型尚無法完全理解。
數(shù)學(xué)
大模型的主觀題回答相對凌亂,且過程具有迷惑性,甚至出現(xiàn)過程錯誤但得到正確答案的情況。
大模型的公式記憶能力較強(qiáng),但無法在解題過程中靈活引用。
英語
英語整體表現(xiàn)良好,但部分模型由于未經(jīng)題型特訓(xùn),在7選5、完形填空等題型得分率較低。
大模型的英語作文普遍存在因超出字?jǐn)?shù)限制而扣分的情況,而人類考生往往不夠字?jǐn)?shù)。
寫在最后
平心而論,一次高考試卷的測評,無法準(zhǔn)確衡量大模型之間的水平差異。跳出測試結(jié)果本身,這次AI大模型參與正式的高考試題測評,有何實際意義?
更多的人覺得只是新鮮與好玩。但事實上,目前AI大模型取得的分?jǐn)?shù),已經(jīng)干倒50%以上應(yīng)屆考生。
我以GPT-4o的分?jǐn)?shù)為例,「語數(shù)英」三科滿分420取得296.得分率達(dá)到70%。
那么本次測評未進(jìn)行實測的文綜/理綜會拿到210分左右的分?jǐn)?shù)?;究梢酝茢?,GPT-4o參加高考全科目考試可以取得500+的分?jǐn)?shù)。這也意味著,GPT-4o是可以摸到國內(nèi)不少省份的一本線。
摸到一本線是什么水平?
通常全省應(yīng)屆高考生有10%可以進(jìn)入一本院校,這意味著GPT-4o等AI大模型,在人類智力測評層面上已經(jīng)超越了90%的應(yīng)屆考生。
人工智能可以不吃不喝不睡覺沒有小脾氣,只需提供電力支持就可以瘋狂輸出。
ChatGPT誕生還不足兩年,英偉達(dá)已經(jīng)成為了世界上市值第一的怪物。
各位讀者家人們,細(xì)思密恐,想一想都肝顫。?