新華社發(fā)布國內(nèi)AI大模型2.0橫向測評:科大訊飛星火大模型斬獲冠軍
最近一年,人工智能技術(shù)迎來了大變革,伴隨著ChatGPT的異軍突起,科技企業(yè)們紛紛加大投入,AIGC大模型的發(fā)展日新月異、推陳出新。
為直觀感受國內(nèi)科技大廠所推出的大模型產(chǎn)品的現(xiàn)狀、優(yōu)勢及特點。8月12日,新華社研究院對外發(fā)布《人工智能大模型體驗報告2.0》,通過抓取7月31日~8月4日最新的網(wǎng)絡(luò)數(shù)據(jù)組成復(fù)合型問答測試卷,以人機互動問答等形式,對國內(nèi)主流大模型進(jìn)行使用體驗的橫向測評。
本次測評在今年6月發(fā)布的《人工智能大模型體驗報告1.0》基礎(chǔ)上,在題目設(shè)定、對標(biāo)Benchmark參照(人類)、人工打分權(quán)重、專家測評團隊四大方面進(jìn)行了全面升級:
在題目設(shè)置方面,測評題目由6月的300道擴展至8月的500道,并完善了題目分類;在對標(biāo)Benchmark方面,本次測評將以接受過高等教育的人類作為對照組;在人工打分項目上,本次測評根據(jù)對產(chǎn)業(yè)、生活的實際價值,引入了人工打分的權(quán)重指數(shù);在測評團隊方面,邀請了北大文化與傳播研究所的專家學(xué)者參與。
報告首先提出,大模型概念紅利正在逐漸消失,大模型產(chǎn)品的估值將被重新衡量,回歸實際應(yīng)用。事實上,最近兩個月AI概念一直在降溫,ChatGPT官網(wǎng)的月活訪問也在不斷下行。報告認(rèn)為,主流大模型架構(gòu)的開發(fā)進(jìn)程已過半,在競爭的下半場,如何將AI真正走進(jìn)千家萬戶成為關(guān)注焦點。
為了更好地還原國內(nèi)大模型的真實表現(xiàn),本次測評的對象將圍繞以下這些國內(nèi)企業(yè)的大模型產(chǎn)品開展:360智腦、百度文心一言、瀾舟科技Mchat、訊飛星火、昆侖萬維天工、阿里通義千問、商湯商量、智譜科技ChatGLM(排名不分先后)。