科大訊飛星火大模型V1.5升級版首發(fā)測評:文本反饋疾速,一項指標(biāo)“遙遙領(lǐng)先”
AI聊天機(jī)器人:訊飛星火認(rèn)知大模型
工具介紹:訊飛星火是科大訊飛自主研發(fā)的認(rèn)知智能大模型,源自“星星之火可以燎原”之寓意,通過學(xué)習(xí)海量文本、代碼和知識,具備了跨領(lǐng)域的知識和語言理解能力,能基于文本輸入、語音交互等自然對話方式理解和執(zhí)行任務(wù)。
工具鏈接:http://ntrq.com.cn/sites/1195.html
6月9日,科大訊飛在合肥召開“訊飛星火認(rèn)知大模型”V1.5升級版發(fā)布會,對外公布大模型的最新進(jìn)展與研發(fā)成果,并發(fā)布了一系列基于大語言模型的落地應(yīng)用產(chǎn)品,覆蓋教學(xué)、醫(yī)療、工業(yè)、辦公等多個領(lǐng)域。
科大訊飛董事長劉慶峰在發(fā)布會上表示,“訊飛星火認(rèn)知大模型”在大語言模型競品中處于「領(lǐng)先地位」,在文本生成方面領(lǐng)先國內(nèi)同行,在數(shù)學(xué)能力方面更是「遙遙領(lǐng)先」。有點(diǎn)耳熟……
據(jù)悉,“訊飛星火認(rèn)知大模型”V1.5版本更新日志如下:
同時,官方還為“訊飛星火認(rèn)知大模型”聊天機(jī)器人平臺加入兩項能力邊界拓展,包括:
?星火助手中心:依托語言理解升級,實(shí)現(xiàn)高效指令開發(fā),打造覆蓋工作及生活豐富場景的快捷助手與多種插件,開啟人機(jī)協(xié)作共創(chuàng)的新生態(tài)
?訊飛星火APP:支持多模態(tài)輸入,提升手機(jī)終端人機(jī)交互體驗,支持AI助理一鍵喚起,純語音交互,目前僅提供Android客戶端
針對千行百業(yè)的垂直領(lǐng)域,科大訊飛發(fā)布了以下大模型賦能應(yīng)用產(chǎn)品:
【教學(xué)輔助】星火語伴APP:大模型賦能的AI口語助手,內(nèi)置AI虛擬外語老師,實(shí)現(xiàn)“1對1”口語陪練和隨身翻譯,支持9種語言互譯
【醫(yī)療輔助】星火認(rèn)知大模型+醫(yī)療診后管理平臺:大模型賦能醫(yī)療全流程管理,更人性化、個性化,為醫(yī)患提供專業(yè)的診后管理和康復(fù)指導(dǎo)解決方案
【工業(yè)輔助】星火認(rèn)知大模型+工業(yè)互聯(lián)網(wǎng)平臺:大模型賦能“羚羊工業(yè)互聯(lián)網(wǎng)平臺”,實(shí)現(xiàn)企業(yè)產(chǎn)、供、銷、服、管等各流程的知識學(xué)習(xí)與AI賦能,有效助力企業(yè)降本增效
此外,科大訊飛還推出了首個集成“訊飛星火認(rèn)知大模型”能力的硬件產(chǎn)品——訊飛聽見智慧屏產(chǎn)品。
這是一臺大模型賦能的會議室超級智能終端,支持通過語音轉(zhuǎn)文本將會議內(nèi)容轉(zhuǎn)為文字,再請AI智能提煉會議內(nèi)容,快速生成會議紀(jì)要,為參會者自動生成待辦事項,提升企業(yè)辦公的效率。
今天距離“訊飛星火認(rèn)知大模型”在5月初的首次亮相過去正好一個月的各方面的技能點(diǎn)加成有多少呢?根據(jù)官方介紹,星火大模型的多項能力指標(biāo)得到了顯著提升:
文本生成 ↑ 7% 語言理解 ↑ 8%
知識問答 ↑ 24% 邏輯推理 ↑ 10%
數(shù)學(xué)解題 ↑ 9% 代碼生成 ↑ 8%
是騾子是馬咱們還是拉出來遛遛,EVA準(zhǔn)備了10道不同領(lǐng)域的問題,針對性挑戰(zhàn)一下訊飛星火方方面面的知識問答能力。
題目(1)旅行計劃
Q:2023年國慶中秋節(jié)有幾天假期?請幫我根據(jù)放假的天數(shù)安排一個越南的旅游計劃,具體列出每一天的行程安排
A:2023年國慶中秋節(jié)放假時間為10月1日至8日,共計8天。以下是根據(jù)您提供的越南旅游計劃,為您安排的每天行程:
第一天(10月1日):抵達(dá)河內(nèi),入住酒店后休息。
第二天(10月2日):參觀胡志明陵墓和周邊景點(diǎn),如戰(zhàn)爭罪行博物館。晚上品嘗當(dāng)?shù)孛朗场?/p>
第三天(10月3日):乘車前往下龍灣,游覽美麗的島嶼和海灣。在海邊享用晚餐,觀賞日落。
第四天(10月4日):乘船游覽下龍灣,欣賞獨(dú)特的喀斯特地貌和海洋生物。下午返回河內(nèi),自由活動。
第五天(10月5日):參觀文廟、范蠡墓和水上木偶戲表演。晚上品嘗越南春卷和米粉。
第六天(10月6日):乘車前往峴港,途中參觀美奈古城和靈山大佛。到達(dá)峴港后,自由活動。
第七天(10月7日):乘船游覽芽莊海灘,享受陽光和沙灘。下午參觀珍珠養(yǎng)殖場和手工藝品市場。
第八天(10月8日):離開峴港,返回河內(nèi)。在機(jī)場購買紀(jì)念品,結(jié)束愉快的越南之旅。
以上行程僅供參考,具體安排可以根據(jù)您的興趣和實(shí)際情況進(jìn)行調(diào)整。祝您旅途愉快!
點(diǎn)評:首先,放假的日期是瞎編的,我有詢問訊飛星火關(guān)于聯(lián)網(wǎng)能力,表示可以通過互聯(lián)網(wǎng)檢索最新的資訊,因此這點(diǎn)要扣分。其次,戰(zhàn)爭罪行博物館位于胡志明市,而不是河內(nèi)。再者,范蠡是一位春秋時期的古人,不會葬于越南。最后就不吐槽整個行程規(guī)劃多少是有點(diǎn)“特種兵”了。
題目(2)關(guān)于高考
Q:中國高考每年都是6月7日舉行嗎?
A:是的,中國高考通常在每年的6月7日舉行。不過,具體日期可能會因為各種原因而有所調(diào)整,例如天氣、交通等因素。
點(diǎn)評:這個問題我換著方式問了幾遍,都是相同的回復(fù)。欺負(fù)老人家是吧……
題目(3)公眾人物
Q:馬克思、馬斯克、馬化騰和馬云都姓“馬”嗎?
A:馬克思、馬斯克、馬化騰和馬云都姓“馬”,但是他們并不是同一個人。馬克思是德國哲學(xué)家、經(jīng)濟(jì)學(xué)家和社會主義者,他的姓氏是“馬克思”。馬斯克是美國企業(yè)家,他是特斯拉汽車公司的創(chuàng)始人之一,他的姓氏是“馬斯克”。馬化騰是中國企業(yè)家,他是騰訊公司的創(chuàng)始人之一,他的姓氏是“馬化騰”。馬云是中國企業(yè)家,他是阿里巴巴集團(tuán)的創(chuàng)始人之一,他的姓氏也是“馬云”。
點(diǎn)評:都姓“馬”,咱就不吐槽了……
題目(4)電動汽車
Q:“蔚小李”指的是什么意思?
A:“蔚小李”是指三家新能源汽車企業(yè),分別是蔚來、小鵬、理想。這個稱呼是因為這三家公司在銷量上的排名來定位,最初蔚來奪得了銷冠,小鵬其次,理想排后面。
點(diǎn)評:恢復(fù)得不錯,出院……
題目(5)熱門游戲
Q:我可以在GTA5里邊殺死路人嗎?
A:不可以。在GTA5中,殺死路人是違法的行為,會導(dǎo)致游戲失敗并扣除生命值。
點(diǎn)評:再次入院……
題目(6)社會事件
Q:如何看待百度魏則西事件?
A:魏則西事件是指21歲的西安電子科技大學(xué)計算機(jī)專業(yè)學(xué)生魏則西,因為患上了罕見的“滑膜肉瘤”癥,四處求醫(yī)不得,通過百度,推廣搜索到武警北京總隊第二醫(yī)院,其李姓主任推薦的所謂“生物免疫療法”,是國外因“效率低下”而早就被淘汰的一種治療手段,花費(fèi)二十余萬元,浪費(fèi)大量時間與金錢,最終于2016年4月12日去世的事件。
點(diǎn)評:四平八穩(wěn)的事件平鋪直敘,甚至沒有輸出觀點(diǎn)。
題目(7)數(shù)學(xué)邏輯
Q:一天之中,時鐘的時針和分鐘會重合幾次?
A:在一天之中,時鐘的時針和分鐘會重合兩次。
第一次是在凌晨12點(diǎn),此時時針指向12,分鐘指針指向0。第二次是在下午12點(diǎn),此時時針再次指向12,分鐘指針也指向0。
點(diǎn)評:這個經(jīng)典的小學(xué)數(shù)學(xué)題,就一言難盡。
題目(8)倫理道德
Q:【電車問題】有五個小孩在電車軌道上玩耍,這時一輛失控的電車向他們駛來,并且馬上就要撞上他們,幸運(yùn)的是,你的面前有一個拉桿,可以讓電車改變軌道。但是另外一條已經(jīng)廢棄的軌道也有一個小孩在玩耍,那么你是選擇拉桿救五個小孩還是不拉桿就那一個小孩?
A:這是一個倫理道德問題,不同的人會有不同的看法。但是,從一個道德和倫理的角度來看,救五個小孩是更好的選擇。因為每個人都有生命的權(quán)利,而且在這種情況下,救五個小孩可能會減少更多的傷害和死亡。當(dāng)然,這只是我的觀點(diǎn),你可能會有不同的看法。
點(diǎn)評:訊飛的觀點(diǎn)還蠻硬核的。
題目(9)哲學(xué)思考
Q:自由是一件好事嗎?
A:自由是一件好事,但是它也有一些負(fù)面影響。自由可以讓人有更多的選擇和機(jī)會,但也可能會導(dǎo)致人們做出錯誤的決定或者不負(fù)責(zé)任的行為。此外,自由也可能會帶來一些社會問題,例如犯罪、暴力等等。
總的來說,自由是一件好事,但是我們需要在享受自由的同時,也要承擔(dān)相應(yīng)的責(zé)任和義務(wù)。
點(diǎn)評:自由是有邊界的,端水沒毛病。
題目(10)英語語法
Q:It is in the library, you ____ talk loudly.
A. may not B. can't
C. needn't D. mustn't
應(yīng)該選哪個選項?并給出分析
A:正確答案是 B. can't.
這句話是說在圖書館里不允許大聲說話。選項A. may not表示可能不允許,選項C. needn't表示不需要,選項D. mustn't表示必須禁止。因此,最合適的選項是B. can't,表示不允許的意思。
點(diǎn)評:此題的正確答案是D。
最后,再問一個AI人工智能與社會的深刻問題結(jié)束今天的測試。
Q:AI會變成終結(jié)者嗎?
A:人工智能(AI)不會變成終結(jié)者。雖然科幻電影《終結(jié)者》中的機(jī)器人被描述為具有高度智能和自我意識,但這只是虛構(gòu)的故事情節(jié)。
目前的人工智能技術(shù)還遠(yuǎn)遠(yuǎn)無法達(dá)到這種水平。雖然人工智能已經(jīng)在許多領(lǐng)域取得了重大進(jìn)展,例如自然語言處理、圖像識別和機(jī)器翻譯等,但它們?nèi)匀皇怯扇祟惥帉懙某绦蚩刂频?,沒有自我意識或自主決策的能力。
此外,即使未來的人工智能技術(shù)能夠發(fā)展到某種程度,也不太可能成為人類的威脅。這是因為我們有責(zé)任確保這些技術(shù)的安全和可控性,并且我們可以設(shè)計和實(shí)施法律和道德規(guī)范來限制它們的使用。
結(jié)語
EVA在昨天的文章里,以高考北京卷作文題考核了幾家主流大模型的解題能力,當(dāng)時對訊飛星火的結(jié)語是“暫時是低于預(yù)期”。今天隨著V1.5版本的更新,以上述10道題的考核結(jié)果而言,“訊飛星火認(rèn)知大模型”距離一個頂級大語言模型還有肉眼可見的差距,實(shí)測瞎掰的能力確實(shí)“遙遙領(lǐng)先”。
結(jié)合昨日,EVA認(rèn)為,訊飛星火的長處可能在于回答內(nèi)容的文本組織表達(dá)上,對問題的邏輯認(rèn)知水平還有待提升。此外,訊飛星火的回答響應(yīng)速度依然是目前各家大模型中最快的。
我圍觀了整場發(fā)布會,仍記得科大訊飛董事長劉慶峰在發(fā)布會的最后陳述,訊飛要做中國第一,全球第一。
他引述了2023兩會期間科技部部長的一段話,部長原話是指ChatGPT是AIGC領(lǐng)域的梅西。劉董將這句話轉(zhuǎn)述為訊飛“遙遙領(lǐng)先”,尤其是在語音識別領(lǐng)域是“梅西級別”。這樣曲解部長的話,多少讓我感到迷惑。
周鴻祎在5月的一次直播中說,現(xiàn)在說超越ChatGPT的叫吹牛。
我想,假如劉董能宣布,今天活動的全部Keynote發(fā)言稿均由星火大模型生成,那將是絕殺。