中文字幕丰满乱子伦无码专区,自拍偷在线精品自拍偷

亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

首頁 > 測評 > 文章

2023-10-24 19:36

科大訊飛星火認知大模型V3.0測評：整體超越ChatGPT，醫(yī)療超越GPT-4？

五個月之后，在科大訊飛全球1024開發(fā)者節(jié)現(xiàn)場，劉慶峰如約而至兌現(xiàn)諾言，并給出新的Flag：2024年上半年對標GPT-4！

不光訊飛最強星火大模型來襲，七大維度全面升級，尤其是多模態(tài)、代碼生成以及復雜推理的能力，還能生成符合自己人設(shè)的AI助手。

除此之外，還有科技文獻大模型、醫(yī)療大模型以及同其他企業(yè)合作的12個行業(yè)大模型一并發(fā)布。

以科技文獻大模型為例，它可以一分鐘就能整合18篇論文，生成一篇5頁的綜述報告。

還能直接生成論文中提到的代碼。

醫(yī)療大模型也正式公開，化身每個人的健康助手，進行自查、用藥指導以及檢查/體檢報告解讀，并首發(fā)“訊飛曉醫(yī)”APP及小程序。

在底層基礎(chǔ)設(shè)施上，訊飛華為再次聯(lián)手，發(fā)布基于昇騰生態(tài)的“飛星一號”平臺發(fā)布。

正如劉慶峰所強調(diào)的那樣：唯有自主可控，才有生生不息的未來。

全面對標ChatGPT、醫(yī)療超越GPT-4

既然如此，當初的Flag都實現(xiàn)了嗎?

首先就星火大模型V3.0本身，我們自然進行了第一手的實測。

據(jù)介紹，此次七大能力持續(xù)提升，并且全面對標ChatGPT。尤其像中文能力客觀評測上超越ChatGPT，在醫(yī)療、法律、教育等專業(yè)表現(xiàn)也格外突出，還有在代碼項目級理解能力、小樣本學習、多模態(tài)指令跟隨與細節(jié)表達等能力有所提升。

并且此次還新增了虛擬人格功能，它可以根據(jù)性格模擬、情緒理解、表達風格來形成一個初始人設(shè)，再結(jié)合特定知識學習、對話記憶學習，形成一個更個性化的AI人設(shè)。

既然如此，那么第一波就來考驗一下它的基本功。

理解能力。

比如一些只在中文語境下才能get到的網(wǎng)絡(luò)梗，沒想到星火與時俱進直接get。

就連昨天的消息也都知道。

接下來第二波進階，也是最能考驗大模型真正實力的代碼生成能力。據(jù)介紹，目前訊飛星火代碼能力已經(jīng)超過ChatGPT，但略遜于GPT-4.

既然如此，就來實際評測一下(提示詞故意有點語病)：

你現(xiàn)在頂級程序員，請寫出Resnet神經(jīng)網(wǎng)絡(luò)代碼，并給出每一段代碼的解釋。

首先兩者都正確識別了問題，給出的代碼表現(xiàn)基本一致。

訊飛星火的回答直接分成了代碼部分和解讀部分。

而GPT-4的回答，直接將代碼部分拆分并解釋，這樣方便代碼修正和學習。

最后，再來看看新晉的看家本領(lǐng)——多模態(tài)生成能力。

請根據(jù)「黃河遠上白云間，一片孤城萬仞山。」畫一幅畫。

這一來考驗對中文詩詞的理解能力，二來考究的是大模型對空間感知的能力。

△訊飛星火回答截圖

△GPT-4(部分回答截圖)

可以看到，訊飛星火繪制的畫不僅理解來中文古詩詞的內(nèi)容，畫風也是更具有古色古韻，而且巧妙地將黃河、白云和孤城在整個空間里組合在一起。

而GPT-4則將孤城直接理解成了城市，畫面也是更為現(xiàn)代感……

大模型AI人設(shè)這塊，這也是此次發(fā)布的重點更新?？梢钥吹皆凇赴l(fā)現(xiàn)友伴」這一功能上有近20種AI人格可供選擇，包括像馬斯克、林黛玉、哪吒、于大爺、櫻花木道、秦始皇等等。

比如像這位硅谷鋼鐵俠，一上來腦子里全都是地球保護、殖民火星那些事兒。

還有像林妹妹，說話語氣里帶有些許婉轉(zhuǎn)詩意~

據(jù)劉慶峰介紹，這一功能上線12小時，已有3000+人設(shè)由開發(fā)者自創(chuàng)。

此次大模型的專業(yè)性上也有所提升，比如在醫(yī)療領(lǐng)域，問上這樣一個常識問題。

我24小時尿量<100毫升，我怎么了

可以看到，在「可能的原因」上雙方的回答基本一致。訊飛星火風格則簡單直接，還給出了「嚴重性」提醒。而GPT-4更為完備一些。

最后再來簡單總結(jié)一下測評結(jié)果：

基礎(chǔ)能力：語義理解、時效把握以及代碼生成能力上都有很大的提升;

多模態(tài)生成表現(xiàn)不錯，尤其在空間感知能力的表現(xiàn);

個性化上也有人格表現(xiàn)，但會出現(xiàn)原形的情況;

專業(yè)性表現(xiàn)也基本無事實性錯誤，尤其醫(yī)療能力水平，給出適時診療提醒。

每個人的AI助手時代正在到來

除了星火大模型本身，此次科大訊飛1024開發(fā)者節(jié)可謂是干貨滿滿——

不光有編程產(chǎn)品iFlyCode、科技文獻大模型、醫(yī)療大模型等這些垂直領(lǐng)域大模型落地應(yīng)用;還有同與行業(yè)龍頭共創(chuàng)12個行業(yè)大模型、10萬家企業(yè)用戶，通用大模型產(chǎn)業(yè)生態(tài)初見雛形;另外，超腦計劃2030也在有序進行。

可以說是眼花繚亂了。

但細細梳理不難發(fā)現(xiàn)，這些進展其實圍繞著一個底層邏輯——

每個人的AI助手時代正在到來。

正如劉慶峰在發(fā)布會上所強調(diào)的那樣。這也是科大訊飛基于大模型技術(shù)發(fā)展的趨勢理解。

ChatGPT剛出現(xiàn)時，就曾探討過以ChatGPT為代表的大模型產(chǎn)品強大之處在于同時具備知識、推理和溝通能力。

一方面，這是實現(xiàn)認知智能必備的幾項能力;另一方面，也是個人AI助手場景相契合。

前者是科大訊飛一直以來的技術(shù)深耕，后者則是科大訊飛在工業(yè)、科研、醫(yī)療、教育、智能汽車，甚至超腦計劃的最終落地形態(tài)。

以教育為例，科大訊飛就認為目前教育「因材施教」進入到第三個層次：類人式對話輔導，進行逐層講解。

基于這樣的邏輯，從科大訊飛半年落地成果，也就能從中窺見大模型發(fā)展一二。

首先是應(yīng)用和業(yè)務(wù)場景。

科大訊飛認為，大模型賦能首要就是工業(yè)和科研。而要賦能工業(yè)，則首先要賦能代碼。

iFlyCode

8月15日iFlyCode發(fā)布以來，已有62萬開發(fā)者應(yīng)用、107家機構(gòu)深度應(yīng)用。

比如“智慧教育大屏”性能優(yōu)化，傳統(tǒng)方案需要15天解決，在iFlyCode輔助下只需7天。

本次iFlyCode2.0在設(shè)計階段、編碼階段、自測階段都有一定的升級。

科技文獻大模

同中科院知識文獻中心合作，有著包括成果調(diào)研、論文研讀、學術(shù)寫作、生成論文代碼、潤色、學術(shù)翻譯等功能，可以化身當下高校研究生的科研小助手。

給一篇中文文獻，結(jié)果一鍵就能生成英文版。

還能與時俱進、補充跨領(lǐng)域知識，比如一篇大模型文章，問到ChatGPT發(fā)展歷程，還補充了現(xiàn)下GPT-4的發(fā)展。

醫(yī)療大模型。

它能根據(jù)體檢報告、檢查報告進行解讀。

傳統(tǒng)體檢報告一般會有單項解讀，以及像復查這種比較粗放的結(jié)論。而訊飛曉醫(yī)不光給出具體指數(shù)指標，還會主動詢問最近身體情況，聯(lián)合各個單項結(jié)果并更新風險等級。

還可以根據(jù)藥品照片、自身情況，給出用藥建議，比如禁忌、推薦等。

除此之外，還有科大訊飛歷來深耕的教育領(lǐng)域，訊飛AI學習機升級了英語AI答疑賦學;同科普中國一起合作發(fā)布科普大模型;還打造了AI心理伙伴等等，因材施教已取得規(guī)模化應(yīng)用成果，在全國50000+所學校深度應(yīng)用。

當然，這些進展其實都是加速訊飛超腦2030計劃一部分——懂知識、善學習、能進化、讓機器人走進每個家庭。

AIBOT去年發(fā)布以來，已為工業(yè)、教育、服務(wù)等領(lǐng)域372家企業(yè)提供服務(wù)。

中國玩家大模型加速度優(yōu)勢明顯

不可否認的是，以星火大模型等為代表的國產(chǎn)大模型，在確定性方向上發(fā)展優(yōu)勢明顯。

并且同樣保持著同樣明顯且持續(xù)的加速度。

已經(jīng)形成全球共識的，當前大模型發(fā)展已經(jīng)進入到第二階段——

大模型AI產(chǎn)品從炒作、演示Demo、到真正的價值導向，用戶導向、場景導向。

像微軟谷歌亞馬遜在內(nèi)的全球巨頭，卻面臨增長的煩惱：不僅不賺錢，還要倒貼。

以AI編程工具GitHub Copilot為例，微軟平均每個月在每個用戶身上都要倒貼20美元，最高能達80美元。

個中原因，用戶找不到為大模型產(chǎn)品付費的理由。

更本質(zhì)一點來說，大模型尚未發(fā)揮出最大的價值效能。

在這一方面上，中國玩家正在展現(xiàn)出自己的產(chǎn)業(yè)發(fā)展優(yōu)勢，并且優(yōu)勢明顯。

有場景。前一波技術(shù)浪潮，AI能落地到千行百業(yè)，大模型技術(shù)同樣也能落地千行百業(yè)。一方面，我國有著全球最完整的產(chǎn)業(yè)體系，為大模型的落地應(yīng)用提供了廣闊的創(chuàng)新空間;另一方面，在一些場景中，我國還有著不同于其他的獨特優(yōu)勢。像教育、醫(yī)療，要實現(xiàn)真正的全民普惠，對技術(shù)其實提出了更高的要求。

有數(shù)據(jù)。數(shù)據(jù)的價值，從未像今天這樣受到前所未有的關(guān)注。場景數(shù)據(jù)質(zhì)量的好壞，直接決定了大模型的性能表現(xiàn)。

此前國內(nèi)AI應(yīng)用，已經(jīng)有深厚的場景積累。如科大訊飛的認知智能技術(shù)已經(jīng)在教育、醫(yī)療、金融、汽車、服務(wù)等多個領(lǐng)域落地，并構(gòu)筑起了深厚的行業(yè)壁壘。

根據(jù)IDC研究顯示，中國數(shù)據(jù)量規(guī)模將從2022的23.88ZB增長至2027年的76.6ZB，復合年均增長速度(CAGR)達到26.3%，為全球第一，為大模型的持續(xù)優(yōu)化提供了海量的數(shù)據(jù)來源。

有市場。ChatGPT作為通用人工智能的代表，本身不是項好生意。OpenAI商業(yè)化只是少數(shù)，身處于國內(nèi)市場大環(huán)境下的企業(yè)，通用路線往往不是一個最佳選擇。垂直場景應(yīng)用路線更受國內(nèi)市場青睞。

有場景有數(shù)據(jù)有市場，也再次印證中國玩家率先吃到ChatGPT紅利，如今發(fā)展加速度明顯。

從科大訊飛的迭代應(yīng)用速度就可見一斑。

今年2月，科大訊飛首次回應(yīng)：在搞類ChatGPT產(chǎn)品，并給出確定時間點;

5月，訊飛星火V1.0正式發(fā)布，在語義理解，長文本生成以及數(shù)據(jù)能力三方面，據(jù)稱“已經(jīng)超過了ChatGPT”，并直接展現(xiàn)五大應(yīng)用成果。

6月，星火升級至V1.5;8月，訊飛星火V2.0發(fā)布，多模態(tài)能力實現(xiàn)。

10月，科技文獻大模型、醫(yī)療大模型等12大行業(yè)大模型發(fā)布，通用人工智能產(chǎn)業(yè)生態(tài)初具雛形。

……

當下大模型的發(fā)展進入到了冷靜期，每個企業(yè)都在思考如何能讓大模型充分發(fā)揮價值效能。即便如OpenAI的奧特曼，也在尋找自身第二增長點。

關(guān)于大模型的評測和判斷，不再看發(fā)布效率、榜單分數(shù)，而是看實際應(yīng)用、看產(chǎn)業(yè)應(yīng)用生態(tài)。

這背后既需要國內(nèi)底層軟硬生態(tài)更緊密的合作——華為昇騰生態(tài)“飛星一號”平臺發(fā)布。

也需要同行業(yè)龍頭、萬千開發(fā)者一起共建起通用大模型產(chǎn)業(yè)生態(tài)。目前關(guān)于星火大模型開發(fā)者已經(jīng)有17.8萬，涵蓋各個領(lǐng)域。

大模型時代的序幕才剛剛到來。

好了，對于劉慶峰說的「明年上半年對標GPT-4」的Flag，你怎么看？

追蹤人工智能新趨勢，關(guān)注科技行業(yè)新突破

查看相關(guān)話題： #訊飛星火 #科大訊飛 #星火4.0 #GPT-4 #AI測評

相關(guān)文章

量子位

原創(chuàng)作者

知名AI科技媒體

作者已發(fā)布 131 篇文章

近期文章

OpenAI滿血版o1劇透：數(shù)學代碼能力再破天花板，已開啟測試評估

「國產(chǎn)Sora」最新升級！《沙丘》級大片視效，人人都能免費體驗

我們用豆包視頻大模型，生成了AI版的《紅樓夢》MV

別再依賴Photoshop了！Midjourney全新上線AI畫質(zhì)增強功能Upsacle，4K超清修復老照片

商湯最新AI繪圖大模型“秒畫Artist”v0.3.5版本全面測評：作畫水準比肩Midjourney！劃重點——免費