科大訊飛星火認知大模型V3.0測評:整體超越ChatGPT,醫(yī)療超越GPT-4?
五個月之后,在科大訊飛全球1024開發(fā)者節(jié)現(xiàn)場,劉慶峰如約而至兌現(xiàn)諾言,并給出新的Flag:2024年上半年對標GPT-4!
不光訊飛最強星火大模型來襲,七大維度全面升級,尤其是多模態(tài)、代碼生成以及復雜推理的能力,還能生成符合自己人設(shè)的AI助手。
除此之外,還有科技文獻大模型、醫(yī)療大模型以及同其他企業(yè)合作的12個行業(yè)大模型一并發(fā)布。
以科技文獻大模型為例,它可以一分鐘就能整合18篇論文,生成一篇5頁的綜述報告。
還能直接生成論文中提到的代碼。
醫(yī)療大模型也正式公開,化身每個人的健康助手,進行自查、用藥指導以及檢查/體檢報告解讀,并首發(fā)“訊飛曉醫(yī)”APP及小程序。
在底層基礎(chǔ)設(shè)施上,訊飛華為再次聯(lián)手,發(fā)布基于昇騰生態(tài)的“飛星一號”平臺發(fā)布。
正如劉慶峰所強調(diào)的那樣:唯有自主可控,才有生生不息的未來。
全面對標ChatGPT、醫(yī)療超越GPT-4
既然如此,當初的Flag都實現(xiàn)了嗎?
首先就星火大模型V3.0本身,我們自然進行了第一手的實測。
據(jù)介紹,此次七大能力持續(xù)提升,并且全面對標ChatGPT。尤其像中文能力客觀評測上超越ChatGPT,在醫(yī)療、法律、教育等專業(yè)表現(xiàn)也格外突出,還有在代碼項目級理解能力、小樣本學習、多模態(tài)指令跟隨與細節(jié)表達等能力有所提升。
并且此次還新增了虛擬人格功能,它可以根據(jù)性格模擬、情緒理解、表達風格來形成一個初始人設(shè),再結(jié)合特定知識學習、對話記憶學習,形成一個更個性化的AI人設(shè)。
既然如此,那么第一波就來考驗一下它的基本功。
理解能力。
比如一些只在中文語境下才能get到的網(wǎng)絡(luò)梗,沒想到星火與時俱進直接get。
就連昨天的消息也都知道。
接下來第二波進階,也是最能考驗大模型真正實力的代碼生成能力。據(jù)介紹,目前訊飛星火代碼能力已經(jīng)超過ChatGPT,但略遜于GPT-4.
既然如此,就來實際評測一下(提示詞故意有點語病):
你現(xiàn)在頂級程序員,請寫出Resnet神經(jīng)網(wǎng)絡(luò)代碼,并給出每一段代碼的解釋。
首先兩者都正確識別了問題,給出的代碼表現(xiàn)基本一致。
訊飛星火的回答直接分成了代碼部分和解讀部分。
而GPT-4的回答,直接將代碼部分拆分并解釋,這樣方便代碼修正和學習。
最后,再來看看新晉的看家本領(lǐng)——多模態(tài)生成能力。
請根據(jù)「黃河遠上白云間,一片孤城萬仞山。」畫一幅畫。
這一來考驗對中文詩詞的理解能力,二來考究的是大模型對空間感知的能力。
△訊飛星火回答截圖
△GPT-4(部分回答截圖)
可以看到,訊飛星火繪制的畫不僅理解來中文古詩詞的內(nèi)容,畫風也是更具有古色古韻,而且巧妙地將黃河、白云和孤城在整個空間里組合在一起。
而GPT-4則將孤城直接理解成了城市,畫面也是更為現(xiàn)代感……
大模型AI人設(shè)這塊,這也是此次發(fā)布的重點更新??梢钥吹皆凇赴l(fā)現(xiàn)友伴」這一功能上有近20種AI人格可供選擇,包括像馬斯克、林黛玉、哪吒、于大爺、櫻花木道、秦始皇等等。
比如像這位硅谷鋼鐵俠,一上來腦子里全都是地球保護、殖民火星那些事兒。
還有像林妹妹,說話語氣里帶有些許婉轉(zhuǎn)詩意~
據(jù)劉慶峰介紹,這一功能上線12小時,已有3000+人設(shè)由開發(fā)者自創(chuàng)。
此次大模型的專業(yè)性上也有所提升,比如在醫(yī)療領(lǐng)域,問上這樣一個常識問題。
我24小時尿量<100毫升,我怎么了
可以看到,在「可能的原因」上雙方的回答基本一致。訊飛星火風格則簡單直接,還給出了「嚴重性」提醒。而GPT-4更為完備一些。
最后再來簡單總結(jié)一下測評結(jié)果:
基礎(chǔ)能力:語義理解、時效把握以及代碼生成能力上都有很大的提升;
多模態(tài)生成表現(xiàn)不錯,尤其在空間感知能力的表現(xiàn);
個性化上也有人格表現(xiàn),但會出現(xiàn)原形的情況;
專業(yè)性表現(xiàn)也基本無事實性錯誤,尤其醫(yī)療能力水平,給出適時診療提醒。
每個人的AI助手時代正在到來
除了星火大模型本身,此次科大訊飛1024開發(fā)者節(jié)可謂是干貨滿滿——
不光有編程產(chǎn)品iFlyCode、科技文獻大模型、醫(yī)療大模型等這些垂直領(lǐng)域大模型落地應(yīng)用;還有同與行業(yè)龍頭共創(chuàng)12個行業(yè)大模型、10萬家企業(yè)用戶,通用大模型產(chǎn)業(yè)生態(tài)初見雛形;另外,超腦計劃2030也在有序進行。
可以說是眼花繚亂了。
但細細梳理不難發(fā)現(xiàn),這些進展其實圍繞著一個底層邏輯——
每個人的AI助手時代正在到來 。
正如劉慶峰在發(fā)布會上所強調(diào)的那樣。這也是科大訊飛基于大模型技術(shù)發(fā)展的趨勢理解。
ChatGPT剛出現(xiàn)時,就曾探討過以ChatGPT為代表的大模型產(chǎn)品強大之處在于同時具備知識、推理和溝通能力。
一方面,這是實現(xiàn)認知智能必備的幾項能力;另一方面,也是個人AI助手場景相契合。
前者是科大訊飛一直以來的技術(shù)深耕,后者則是科大訊飛在工業(yè)、科研、醫(yī)療、教育、智能汽車,甚至超腦計劃的最終落地形態(tài)。
以教育為例,科大訊飛就認為目前教育「因材施教」進入到第三個層次:類人式對話輔導,進行逐層講解。
基于這樣的邏輯,從科大訊飛半年落地成果,也就能從中窺見大模型發(fā)展一二。
首先是應(yīng)用和業(yè)務(wù)場景。
科大訊飛認為,大模型賦能首要就是工業(yè)和科研。而要賦能工業(yè),則首先要賦能代碼。
iFlyCode
8月15日iFlyCode發(fā)布以來,已有62萬開發(fā)者應(yīng)用、107家機構(gòu)深度應(yīng)用。
比如“智慧教育大屏”性能優(yōu)化,傳統(tǒng)方案需要15天解決,在iFlyCode輔助下只需7天。
本次iFlyCode2.0在設(shè)計階段、編碼階段、自測階段都有一定的升級。
科技文獻大模
同中科院知識文獻中心合作,有著包括成果調(diào)研、論文研讀、學術(shù)寫作、生成論文代碼、潤色、學術(shù)翻譯等功能,可以化身當下高校研究生的科研小助手。
給一篇中文文獻,結(jié)果一鍵就能生成英文版。
還能與時俱進、補充跨領(lǐng)域知識,比如一篇大模型文章,問到ChatGPT發(fā)展歷程,還補充了現(xiàn)下GPT-4的發(fā)展。
醫(yī)療大模型。
它能根據(jù)體檢報告、檢查報告進行解讀。
傳統(tǒng)體檢報告一般會有單項解讀,以及像復查這種比較粗放的結(jié)論。而訊飛曉醫(yī)不光給出具體指數(shù)指標,還會主動詢問最近身體情況,聯(lián)合各個單項結(jié)果并更新風險等級。
還可以根據(jù)藥品照片、自身情況,給出用藥建議,比如禁忌、推薦等。
除此之外,還有科大訊飛歷來深耕的教育領(lǐng)域,訊飛AI學習機升級了英語AI答疑賦學;同科普中國一起合作發(fā)布科普大模型;還打造了AI心理伙伴等等,因材施教已取得規(guī)模化應(yīng)用成果,在全國50000+所學校深度應(yīng)用。
當然,這些進展其實都是加速訊飛超腦2030計劃一部分——懂知識、善學習、能進化、讓機器人走進每個家庭。
AIBOT去年發(fā)布以來,已為工業(yè)、教育、服務(wù)等領(lǐng)域372家企業(yè)提供服務(wù)。
中國玩家大模型加速度優(yōu)勢明顯
不可否認的是,以星火大模型等為代表的國產(chǎn)大模型,在確定性方向上發(fā)展優(yōu)勢明顯。
并且同樣保持著同樣明顯且持續(xù)的加速度。
已經(jīng)形成全球共識的,當前大模型發(fā)展已經(jīng)進入到第二階段——
大模型AI產(chǎn)品從炒作、演示Demo、到真正的價值導向,用戶導向、場景導向。
像微軟谷歌亞馬遜在內(nèi)的全球巨頭,卻面臨增長的煩惱:不僅不賺錢,還要倒貼。
以AI編程工具GitHub Copilot為例,微軟平均每個月在每個用戶身上都要倒貼20美元,最高能達80美元。
個中原因,用戶找不到為大模型產(chǎn)品付費的理由。
更本質(zhì)一點來說,大模型尚未發(fā)揮出最大的價值效能。
在這一方面上,中國玩家正在展現(xiàn)出自己的產(chǎn)業(yè)發(fā)展優(yōu)勢,并且優(yōu)勢明顯。
有場景。前一波技術(shù)浪潮,AI能落地到千行百業(yè),大模型技術(shù)同樣也能落地千行百業(yè)。一方面,我國有著全球最完整的產(chǎn)業(yè)體系,為大模型的落地應(yīng)用提供了廣闊的創(chuàng)新空間;另一方面,在一些場景中,我國還有著不同于其他的獨特優(yōu)勢。像教育、醫(yī)療,要實現(xiàn)真正的全民普惠,對技術(shù)其實提出了更高的要求。
有數(shù)據(jù)。數(shù)據(jù)的價值,從未像今天這樣受到前所未有的關(guān)注。場景數(shù)據(jù)質(zhì)量的好壞,直接決定了大模型的性能表現(xiàn)。
此前國內(nèi)AI應(yīng)用,已經(jīng)有深厚的場景積累。如科大訊飛的認知智能技術(shù)已經(jīng)在教育、醫(yī)療、金融、汽車、服務(wù)等多個領(lǐng)域落地,并構(gòu)筑起了深厚的行業(yè)壁壘。
根據(jù)IDC研究顯示,中國數(shù)據(jù)量規(guī)模將從2022的23.88ZB增長至2027年的76.6ZB,復合年均增長速度(CAGR)達到26.3%,為全球第一,為大模型的持續(xù)優(yōu)化提供了海量的數(shù)據(jù)來源。
有市場。ChatGPT作為通用人工智能的代表,本身不是項好生意。OpenAI商業(yè)化只是少數(shù),身處于國內(nèi)市場大環(huán)境下的企業(yè),通用路線往往不是一個最佳選擇。垂直場景應(yīng)用路線更受國內(nèi)市場青睞。
有場景有數(shù)據(jù)有市場,也再次印證中國玩家率先吃到ChatGPT紅利,如今發(fā)展加速度明顯。
從科大訊飛的迭代應(yīng)用速度就可見一斑。
今年2月,科大訊飛首次回應(yīng):在搞類ChatGPT產(chǎn)品,并給出確定時間點;
5月,訊飛星火V1.0正式發(fā)布,在語義理解,長文本生成以及數(shù)據(jù)能力三方面,據(jù)稱“已經(jīng)超過了ChatGPT”,并直接展現(xiàn)五大應(yīng)用成果。
6月,星火升級至V1.5;8月,訊飛星火V2.0發(fā)布,多模態(tài)能力實現(xiàn)。
10月,科技文獻大模型、醫(yī)療大模型等12大行業(yè)大模型發(fā)布,通用人工智能產(chǎn)業(yè)生態(tài)初具雛形。
……
當下大模型的發(fā)展進入到了冷靜期,每個企業(yè)都在思考如何能讓大模型充分發(fā)揮價值效能。即便如OpenAI的奧特曼,也在尋找自身第二增長點。
關(guān)于大模型的評測和判斷,不再看發(fā)布效率、榜單分數(shù),而是看實際應(yīng)用、看產(chǎn)業(yè)應(yīng)用生態(tài)。
這背后既需要國內(nèi)底層軟硬生態(tài)更緊密的合作——華為昇騰生態(tài)“飛星一號”平臺發(fā)布。
也需要同行業(yè)龍頭、萬千開發(fā)者一起共建起通用大模型產(chǎn)業(yè)生態(tài)。目前關(guān)于星火大模型開發(fā)者已經(jīng)有17.8萬,涵蓋各個領(lǐng)域。
大模型時代的序幕才剛剛到來。
好了,對于劉慶峰說的「明年上半年對標GPT-4」的Flag,你怎么看?
追蹤人工智能新趨勢,關(guān)注科技行業(yè)新突破
近期文章
更多