亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

<abbr id="lkrds"></abbr>

<tfoot id="lkrds"><source id="lkrds"></source></tfoot>

首頁 > 測評 > 文章

2024-06-20 15:53

ChatGPT、阿里通義等AI機(jī)器人參加今年高考出分：干翻90%考生，有一科全員不及格

6月19日，上海人工智能實驗室和司南評測體系發(fā)布了國內(nèi)首個針對AI大模型參與2024高考「語數(shù)英」三科目的全卷解題能力測試的結(jié)果。

本次測試，選取了6款開源大模型以及公認(rèn)的「地表最強(qiáng)」GPT-4o進(jìn)行，考卷選擇了「全國新課標(biāo)I卷」。參與評測的所有開源模型，開源時間均早于今年的高考，成績均由擁有高考評卷經(jīng)驗的老師進(jìn)行人工閱卷評判。

讓我們先看下都有哪些選手：

GPT-4o：OpenAI在5月最新發(fā)布的旗艦大模型，多模態(tài)能力出眾
Mixtral 8x22B：法國AI創(chuàng)業(yè)公司Mistral在4月17日發(fā)布的開源模型
Yi-1.5-34B：零一萬物在5月12日開源的Yi-1.5系列模型
GLM-4-9B：智譜AI在6月開源的新一代GLM-4系列開源模型
InternLM2-20B-WQX：上海人工智能實驗室在6月開源的書生·浦語2.0系列文曲星大模型
Qwen2-57B：阿里在6月開源的Qwen 2系列MoE大模型
Qwen2-72B：阿里在6月開源的72B稠密大模型

測評結(jié)果顯示，通義千問Qwen2-72B、GPT-4o、書生·浦語2.0文曲星(InternLM2-20B-WQX)三款模型位列前三，得分率均超過70%。

大部分的AI模型在文字表達(dá)領(lǐng)域表現(xiàn)出彩，在語文、英語兩個文科科目上表現(xiàn)良好，但是理科考核的數(shù)學(xué)科目，目前仍然是全員不及格，其中書生·浦語2.0文曲星(InternLM2-20B-WQX)得分為75.在所有參與測試的大模型當(dāng)中最高，也超過GPT-4o的73分。

「語數(shù)英」三科加起來的總分為420分。

其中，阿里的通義千問Qwen2-72B拿到了303分，GPT-4o取得296分，書生·浦語2.0以0.5分之差屈居第三。而來自法國的“外來和尚”Mistral排名末尾，僅得到185分。

對此，我們也采訪閱卷老師們，看看他們對大模型的表現(xiàn)進(jìn)行的評價：

語文

大模型的現(xiàn)代文閱讀理解能力普遍較強(qiáng)，但是不同的模型在文言文閱讀理解的能力差距較大。

大模型作文更像問答題，雖然有針對性但缺乏修飾用詞，幾乎不存在人類考生常常使用的舉例論證、引用論證、名人名言和人物素材等手法。

多數(shù)模型無法理解“本體”“喻體”“暗喻”等語文概念。漢語語言中的一些“潛臺詞”，大模型尚無法完全理解。

數(shù)學(xué)

大模型的主觀題回答相對凌亂，且過程具有迷惑性，甚至出現(xiàn)過程錯誤但得到正確答案的情況。

大模型的公式記憶能力較強(qiáng)，但無法在解題過程中靈活引用。

英語

英語整體表現(xiàn)良好，但部分模型由于未經(jīng)題型特訓(xùn)，在7選5、完形填空等題型得分率較低。

大模型的英語作文普遍存在因超出字?jǐn)?shù)限制而扣分的情況，而人類考生往往不夠字?jǐn)?shù)。

寫在最后

平心而論，一次高考試卷的測評，無法準(zhǔn)確衡量大模型之間的水平差異。跳出測試結(jié)果本身，這次AI大模型參與正式的高考試題測評，有何實際意義?

更多的人覺得只是新鮮與好玩。但事實上，目前AI大模型取得的分?jǐn)?shù)，已經(jīng)干倒50%以上應(yīng)屆考生。

我以GPT-4o的分?jǐn)?shù)為例，「語數(shù)英」三科滿分420取得296.得分率達(dá)到70%。

那么本次測評未進(jìn)行實測的文綜/理綜會拿到210分左右的分?jǐn)?shù)?；究梢酝茢?，GPT-4o參加高考全科目考試可以取得500+的分?jǐn)?shù)。這也意味著，GPT-4o是可以摸到國內(nèi)不少省份的一本線。

摸到一本線是什么水平？

通常全省應(yīng)屆高考生有10%可以進(jìn)入一本院校，這意味著GPT-4o等AI大模型，在人類智力測評層面上已經(jīng)超越了90%的應(yīng)屆考生。

人工智能可以不吃不喝不睡覺沒有小脾氣，只需提供電力支持就可以瘋狂輸出。

ChatGPT誕生還不足兩年，英偉達(dá)已經(jīng)成為了世界上市值第一的怪物。

各位讀者家人們，細(xì)思密恐，想一想都肝顫。?

8

查看相關(guān)話題： #AI高考 #AI測評 #AI大模型 #GPT-4o

相關(guān)文章

AI奇點網(wǎng)打雜的

作者已發(fā)布 625 篇文章

近期文章

更多

開源鴻蒙技術(shù)大會2025丨AI軟件工程分論壇：智能創(chuàng)新，賦能開源鴻蒙軟件工程

開源鴻蒙技術(shù)大會2025丨AI軟件工程分論壇：智能創(chuàng)新，賦能開源鴻蒙軟件工程

神州問學(xué)產(chǎn)品重大發(fā)布——賦能企業(yè)知識治理，全員感知效率提升

神州問學(xué)產(chǎn)品重大發(fā)布——賦能企業(yè)知識治理，全員感知效率提升

品牌＆產(chǎn)品雙升級！神州鯤泰發(fā)布「人工智能+」產(chǎn)品矩陣，以全棧AI基礎(chǔ)設(shè)施奔赴行業(yè)智能化

品牌＆產(chǎn)品雙升級！神州鯤泰發(fā)布「人工智能+」產(chǎn)品矩陣，以全棧AI基礎(chǔ)設(shè)施奔赴行業(yè)智能化

Stable Diffusion3全面評測丨如何使用ComfyUI遍歷題詞、模型丨附贈測試工作流

上一篇

GPT-4o或?qū)⒈怀截瑿laude 3.5深夜發(fā)布，附最新體驗分享

下一篇

<legend id="aetnf"><track id="aetnf"></track></legend>