國產(chǎn)大模型最新橫評:百度文心一言5大維度21項小類測評第一,依然是國產(chǎn)老大
AI奇點網(wǎng)3月27日報道丨近日,全球增長咨詢公司弗若斯特·沙利文發(fā)布了《2024年中國大模型能力評測》,這份測評報告顯示,百度文心一言穩(wěn)居國產(chǎn)大模型首位,拿下數(shù)理科學(xué)、語言能力、道德責(zé)任、行業(yè)能力及綜合能力等五大評測維度的四項第一。
當(dāng)下正值文心一言發(fā)布一周年,從去年3月文心一言發(fā)布到如今的文心大模型4.0版本,文心一言的迅猛成長,這不僅代表的是搜索平臺、工具的迭代升級,更是人們對信息獲取、理解和應(yīng)用的一次全面革新。
文心一言的各方面能力,依然是國產(chǎn)大模型一哥,地位牢不可破。在領(lǐng)先優(yōu)勢方面,不僅僅是大模型的推理能力,還有產(chǎn)品運營層面的綜合穩(wěn)定考核。據(jù)媒體報道,蘋果公司已經(jīng)選定了百度文心大模型作為下一代iOS與macOS操作系統(tǒng)內(nèi)置AI功能的服務(wù)商。
國行iPhone搭載文心一言!百度將為?蘋果國行iPhone/iPad/Mac提供AI功能
根據(jù)接近百度方面的知情人士透露,蘋果CEO庫克近日的「中國行」,已經(jīng)確定將與百度公司簽訂合作協(xié)議。
《2024年中國?模型能?評測》對國內(nèi)主流的15個大模型進行了橫評,從而將中國大模型分成了三個梯隊。如下圖所示,百度、騰訊、阿里等互聯(lián)網(wǎng)大廠旗下大模型位于第一梯隊,綜合表現(xiàn)更為優(yōu)異。其中,文心一言能力最為全面,五項評測維度均為優(yōu)勢能力,并取得四項第一。
測評主打一個全面綜合,維度包括通用基礎(chǔ)能力和專業(yè)應(yīng)用能力兩大方面。
具體來說,通用基礎(chǔ)能力重點評估?模型在語言理解、知識儲備、道德風(fēng)險控制等方面的表現(xiàn),以揭示其在自然語言理解和交互水平上的能力。而專業(yè)應(yīng)用能力則著重檢驗?模型在實際應(yīng)用中的效能與價值,通過考察其在任務(wù)規(guī)劃、超長文本處理、行業(yè)內(nèi)容生成等方面的表現(xiàn),以衡量?模型在不同應(yīng)用場景下的實際價值產(chǎn)出能力。
報告顯示,文心一言在通?基礎(chǔ)能?評測中超越部分國際大模型,能夠精確解析?本、捕捉語義,并?成符合語法和語境規(guī)則的?本。但我們也能看到國際領(lǐng)先模型在通?基礎(chǔ)能?和專業(yè)應(yīng)?能?上略優(yōu)于中國領(lǐng)先模型。
整體測評中,文心一言拿下數(shù)理科學(xué)、語言能力、道德責(zé)任、行業(yè)能力及綜合能力等五大評測維度的四項第一,在21個細化二級維度均表現(xiàn)突出。
弗若斯特·沙利文發(fā)表預(yù)測稱,2024年的大模型的技術(shù)發(fā)展將趨向多功能與小型化,同時產(chǎn)業(yè)端將強調(diào)自主研發(fā)和行業(yè)標(biāo)準化,而倫理責(zé)任和數(shù)據(jù)標(biāo)準規(guī)范將成為持續(xù)發(fā)展的關(guān)鍵。