亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

首頁 > 測評 > 文章

2023-08-13 20:48

新華社發(fā)布國內(nèi)AI大模型2.0橫向測評：科大訊飛星火大模型斬獲冠軍

最近一年，人工智能技術(shù)迎來了大變革，伴隨著ChatGPT的異軍突起，科技企業(yè)們紛紛加大投入，AIGC大模型的發(fā)展日新月異、推陳出新。

為直觀感受國內(nèi)科技大廠所推出的大模型產(chǎn)品的現(xiàn)狀、優(yōu)勢及特點。8月12日，新華社研究院對外發(fā)布《人工智能大模型體驗報告2.0》，通過抓取7月31日~8月4日最新的網(wǎng)絡(luò)數(shù)據(jù)組成復(fù)合型問答測試卷，以人機互動問答等形式，對國內(nèi)主流大模型進(jìn)行使用體驗的橫向測評。

本次測評在今年6月發(fā)布的《人工智能大模型體驗報告1.0》基礎(chǔ)上，在題目設(shè)定、對標(biāo)Benchmark參照（人類）、人工打分權(quán)重、專家測評團隊四大方面進(jìn)行了全面升級：

在題目設(shè)置方面，測評題目由6月的300道擴展至8月的500道，并完善了題目分類；在對標(biāo)Benchmark方面，本次測評將以接受過高等教育的人類作為對照組；在人工打分項目上，本次測評根據(jù)對產(chǎn)業(yè)、生活的實際價值，引入了人工打分的權(quán)重指數(shù)；在測評團隊方面，邀請了北大文化與傳播研究所的專家學(xué)者參與。

報告首先提出，大模型概念紅利正在逐漸消失，大模型產(chǎn)品的估值將被重新衡量，回歸實際應(yīng)用。事實上，最近兩個月AI概念一直在降溫，ChatGPT官網(wǎng)的月活訪問也在不斷下行。報告認(rèn)為，主流大模型架構(gòu)的開發(fā)進(jìn)程已過半，在競爭的下半場，如何將AI真正走進(jìn)千家萬戶成為關(guān)注焦點。

為了更好地還原國內(nèi)大模型的真實表現(xiàn)，本次測評的對象將圍繞以下這些國內(nèi)企業(yè)的大模型產(chǎn)品開展：360智腦、百度文心一言、瀾舟科技Mchat、訊飛星火、昆侖萬維天工、阿里通義千問、商湯商量、智譜科技ChatGLM（排名不分先后）。