“零一萬(wàn)物”發(fā)布首個(gè)千億參數(shù)大模型Yi-Large,CEO李開(kāi)復(fù)立志帶領(lǐng)中國(guó)大模型趕上美國(guó)
以下文章來(lái)自于丨愛(ài)范兒
時(shí)隔一年,李開(kāi)復(fù)帶著「零一萬(wàn)物」與新版模型再次席卷而來(lái)。
去年 5 月,零一萬(wàn)物成立,6 個(gè)月后就發(fā)布了旗下首款中英雙語(yǔ)大模型 Yi 系列。從一開(kāi)始,李開(kāi)復(fù)就定下了一個(gè)宏偉且艱難的目標(biāo):「成為 World's No.1」。依靠大廠背景團(tuán)隊(duì)、優(yōu)異模型表現(xiàn),零一萬(wàn)物達(dá)到了 10 億美元的估值。
今天,它們又帶來(lái)了第二款產(chǎn)品:Yi-Large 閉源模型。
去年 11 月,零一萬(wàn)物所發(fā)布的 Yi-34B 以開(kāi)源社區(qū)「甜點(diǎn)級(jí)」尺寸就在 Hugging Face 榜單中,超越了 Llama2-70B、Falcon-180B 等大幾倍的模型,成為當(dāng)時(shí)世界范圍內(nèi)開(kāi)源最強(qiáng)基礎(chǔ)模型之一。
半年后,零一萬(wàn)物正式發(fā)布千億參數(shù)規(guī)模的 Yi-Large,在第三方權(quán)威評(píng)測(cè)中,零一萬(wàn)物 Yi 模型在全球頭部大模型的中英文雙語(yǔ) PK 上表現(xiàn)出色。
最新出爐的斯坦福評(píng)測(cè)機(jī)構(gòu) AlpacaEval 2.0 經(jīng)官方認(rèn)證的模型排行榜上,Yi-Large 模型的英語(yǔ)能力主要指標(biāo) LC Win Rate(控制回復(fù)的長(zhǎng)度)排到了世界第二,僅次于 GPT-4 Turbo,Win Rate 更排到了世界第一。
此前國(guó)內(nèi)模型中僅有 Yi 和 Qwen 曾經(jīng)登上此榜單的前 20。
大模型用起來(lái)聰明的一個(gè)重要前提,是它得清楚你在說(shuō)什么。
國(guó)外的模型表現(xiàn)優(yōu)秀,但都是基于英語(yǔ)語(yǔ)境,而誕生在本土的國(guó)產(chǎn)大模型,天生就對(duì)中文理解有得天獨(dú)厚的優(yōu)勢(shì)。
在中文能力方面,SuperCLUE 更新的四月基準(zhǔn)表現(xiàn)中,Yi-Large 也位列國(guó)產(chǎn)大模型之首,Yi-Large 的綜合中英雙語(yǔ)能力皆展現(xiàn)了卓越的性能。
在更全面的大模型綜合能力評(píng)測(cè)中,Yi-Large 多數(shù)指標(biāo)超越 GPT4、Claude3、Google Gemini 1.5 等同級(jí)模型,達(dá)到首位。
在通用能力、代碼生成、數(shù)學(xué)推理、指令遵循方面都取得了優(yōu)于全球領(lǐng)跑者的成績(jī),穩(wěn)穩(wěn)躋身世界范圍內(nèi)的第一梯隊(duì)。
隨著各家大模型能力進(jìn)入到力求對(duì)標(biāo) GPT4 的新階段,大模型評(píng)測(cè)的重點(diǎn)也開(kāi)始由簡(jiǎn)單的通用能力轉(zhuǎn)向數(shù)學(xué)、代碼等復(fù)雜推理能力。
在針對(duì)代碼生成能力的 HumanEval、針對(duì)數(shù)學(xué)推理能力的 GSM-8K和 MATH、以及針對(duì)領(lǐng)域?qū)<夷芰Φ?GPQA 等評(píng)測(cè)集上,Yi-Large 也取得了耀眼的成績(jī)。
此外,從行業(yè)落地的角度來(lái)看,理解人類指令、對(duì)齊人類偏好已經(jīng)成為大模型不可或缺的能力,指令遵循(Instruction Following)相關(guān)評(píng)測(cè)也越發(fā)受到全球大模型企業(yè)重視。
斯坦福開(kāi)源評(píng)測(cè)項(xiàng)目 AlpacaEval 和伯克利 LM-SYS 推出的 MT-bench 是兩組英文指令遵循評(píng)測(cè)集,AlignBench 則是由清華大學(xué)的團(tuán)隊(duì)推出的中文對(duì)齊評(píng)測(cè)基準(zhǔn)。
在中外權(quán)威指令遵循評(píng)測(cè)集中,Yi-Large 的表現(xiàn)均優(yōu)于國(guó)際前五大模型。
發(fā)布會(huì)上,李開(kāi)復(fù)還宣布,零一萬(wàn)物已啟動(dòng)下一代 Yi-XLarge MoE 模型訓(xùn)練,將沖擊 GPT-5 的性能與創(chuàng)新性。
同時(shí),零一萬(wàn)物也在考慮一些非常復(fù)雜的議題,李開(kāi)復(fù)總結(jié)了三個(gè)重點(diǎn):
李開(kāi)復(fù)說(shuō),這些考量是他們?cè)诠韫裙疽话銢](méi)有看到的:這是我們獨(dú)特的方法,也是中國(guó)獨(dú)角獸的機(jī)會(huì)。
此次發(fā)布會(huì)上,零一萬(wàn)物 Yi 系列開(kāi)源模型也迎來(lái)全面升級(jí),Yi-1.5 分為 34B、9B、6B 三個(gè)版本,且提供了 Yi-1.5-Chat 微調(diào)模型可供開(kāi)發(fā)者選擇。
從評(píng)測(cè)數(shù)據(jù)來(lái)看,Yi-1.5 系列延續(xù)了 Yi 系列開(kāi)源模型的出色表現(xiàn),數(shù)學(xué)邏輯、代碼能力全面增強(qiáng)的同時(shí),語(yǔ)言能力方面也保持了原先的高水準(zhǔn)。
經(jīng)過(guò)微調(diào)后的 Yi-1.5-6B/9B/34B-Chat 在數(shù)學(xué)推理、代碼能力、指令遵循等方面更上一層樓。
Yi-1.5-6B/9B-Chat 在 GSM-8K 和 MATH 等數(shù)學(xué)能力評(píng)測(cè)集、HumanEval 和 MBPP 等代碼能力評(píng)測(cè)集上的表現(xiàn)遠(yuǎn)同參數(shù)量級(jí)模型,也優(yōu)于近期發(fā)布的 Llama-3-8B-Instruct。
在 MT-Bench、AlignBench、AlpacaEval 上的得分在同參數(shù)量級(jí)模型中也處于領(lǐng)先位置。
去年零一萬(wàn)物選擇以開(kāi)源首發(fā) Yi 系列模型,其優(yōu)異的性能受到國(guó)際開(kāi)發(fā)者的高度認(rèn)可。
Yi 開(kāi)源版本 2023 年 11 月上線首月,便占據(jù)開(kāi)源社區(qū)近 5 成熱門模型排行,發(fā)布一個(gè)月后 Yi-34B 被 Nvidia 大模型 Playground 收錄。
在大模型的開(kāi)發(fā)和產(chǎn)品的落地等問(wèn)題上,李開(kāi)復(fù)也有著自己的解題思路。
在接受 APPSO 采訪時(shí),李開(kāi)復(fù)說(shuō):
我們是務(wù)實(shí)的 AGI 信仰者,我們一定要用最少的芯片,最低的成本訓(xùn)練出我們能訓(xùn)練最好的模型。同時(shí)我們會(huì)不斷的去摸索,找 TC-PMF。
國(guó)內(nèi)的初創(chuàng)公司,相對(duì)硅谷公司的差異,我們能夠仰望星空,但也能腳踏實(shí)地。
零一萬(wàn)物不會(huì)用純大力出奇跡的唯一思維,追求能不能用一百億美金,一千億美金。
OPEN AI 有資格嘗試這條道路,但這不是他們要走的道路,當(dāng)然也不會(huì)花時(shí)間來(lái)預(yù)測(cè) AGI 的點(diǎn)燃點(diǎn),但是他很確定地告訴大家,跟他們相關(guān)度更高的是 AI 普惠點(diǎn)。
今天,零一萬(wàn)物同時(shí)宣布,面向國(guó)內(nèi)市場(chǎng)一次性發(fā)布了包含 Yi-Large、Yi-Large-Turbo、Yi-Medium、Yi-Medium-200K、Yi-Vision、Yi-Spark 等多款模型 API 接口,Yi API Platform 英文站同步對(duì)全球開(kāi)發(fā)者開(kāi)放試用申請(qǐng)。
其中,千億參數(shù)規(guī)模的 Yi-Large API 具備超強(qiáng)文本生成及推理性能,適用于復(fù)雜推理、預(yù)測(cè),深度內(nèi)容創(chuàng)作等場(chǎng)景;
Yi-Large-Turbo API 則根據(jù)性能和推理速度、成本,進(jìn)行了平衡性高精度調(diào)優(yōu),適用于全場(chǎng)景、高品質(zhì)的推理及文本生成等場(chǎng)景。
Yi-Medium API 優(yōu)勢(shì)在于指令遵循能力,適用于常規(guī)場(chǎng)景下的聊天、對(duì)話、翻譯等場(chǎng)景;
如果需要超長(zhǎng)內(nèi)容文檔相關(guān)應(yīng)用,也可以選用 Yi-Medium-200K API,一次性可解讀 20 萬(wàn)字的文本;
Yi-Vision API 具備高性能圖片理解、分析能力,可服務(wù)基于圖片的聊天、分析等場(chǎng)景;
Yi-Spark API 則聚焦輕量化極速響應(yīng),適用于輕量化數(shù)學(xué)分析、代碼生成、文本聊天等場(chǎng)景。
更重要的是,現(xiàn)在已經(jīng)有了落地的應(yīng)用,針對(duì)胰腺腫瘤患者設(shè)計(jì)的「小胰寶」就是其中之一。
小胰寶 AI 小助手可以 7x24 小時(shí)為患者介紹綜合治療知識(shí)。
這一助手背后的技術(shù)支持正是零一萬(wàn)物的 Yi 大模型。使用 Yi API 調(diào)用 AI 大模型后,小胰寶突破了胰腺腫瘤治療信息壁壘,可將胰腺癌治療路線圖和治療方案精準(zhǔn)且系統(tǒng)性地呈現(xiàn)給胰腺腫瘤病友。
目前,該公益項(xiàng)目已經(jīng)幫助了 3000 多位胰腺腫瘤病友。
今天的發(fā)布會(huì),也同時(shí)介紹了零一萬(wàn)物近期上線的一站式 AI 工作站「萬(wàn)知」。
根據(jù)官方介紹,萬(wàn)知是一個(gè)專門為中國(guó)用戶量身打造的一站式 AI 工作平臺(tái),可以做會(huì)議紀(jì)要、周報(bào)、寫(xiě)作助手、解讀財(cái)報(bào)、論文、做 PPT,中英雙語(yǔ)且完全免費(fèi)。
目前,用戶可以通過(guò)官網(wǎng)和微信小程序「萬(wàn)知 AI」登錄體驗(yàn)。
發(fā)布會(huì)上萬(wàn)知官方舉了一個(gè)非常實(shí)際的例子:
你剛到公司樓下,突然被領(lǐng)導(dǎo)要求做一個(gè)會(huì)議展示,但是電腦不在身邊,現(xiàn)在通過(guò)「萬(wàn)知」,在手機(jī)上輸入你想演示的主題,然后等你從電梯到工位的兩分鐘里,PPT 已經(jīng)在萬(wàn)知網(wǎng)頁(yè)端做好了,之后你只需要做一些簡(jiǎn)單的文字、配圖和修改,就能直接使用。
除此之外,萬(wàn)知還有許多其他的功能。
根據(jù)萬(wàn)知團(tuán)隊(duì)的研究觀察,使用萬(wàn)知之后的個(gè)人工作效率平均有五成以上的提升,尤其在知識(shí)檢索、文檔構(gòu)思撰寫(xiě)等方面節(jié)約時(shí)間顯著。
目前,萬(wàn)知 AI 助手對(duì)用戶完全免費(fèi)開(kāi)放。
萬(wàn)知官方說(shuō),類似的大模型的應(yīng)用,在今年肯定會(huì)在國(guó)內(nèi)成為一個(gè)重要的落地點(diǎn)。李開(kāi)復(fù)也提到,今年會(huì)是 AI 生產(chǎn)力工具的元年,因?yàn)橛行╊I(lǐng)域今年就會(huì)爆發(fā)。
他覺(jué)得 AI-Frist 的真實(shí)價(jià)值,就是誰(shuí)會(huì)打造一個(gè) AI 抖音,AI 微信,AI 淘寶。零一萬(wàn)物希望他們有可能作為這樣一個(gè)點(diǎn)燃者。
不過(guò),整個(gè) AI 的普惠點(diǎn)一定不是同時(shí)來(lái)到,而且有些領(lǐng)域的應(yīng)用要求會(huì)很高。
比如現(xiàn)在做的生產(chǎn)力工具,最終這個(gè)生產(chǎn)力工具產(chǎn)生的內(nèi)容,還是用戶負(fù)責(zé)。所以如果里面有一些錯(cuò)誤不完美,需要微調(diào),甚至有些少量的幻覺(jué),是由用戶最后決定是否可以修改,所以用戶的指標(biāo)就是我能不能比沒(méi)有這個(gè)工具,產(chǎn)生更好的內(nèi)容在更快的時(shí)間。
李開(kāi)復(fù)說(shuō) TC-PMF 其實(shí)已經(jīng)達(dá)到了,但還可以更好,所以今年在生產(chǎn)力工具肯定會(huì)發(fā)生。
目前零一萬(wàn)物海外生產(chǎn)力應(yīng)用總用戶接近千萬(wàn),今年 ToC 單一產(chǎn)品收入達(dá) 1 億元人民幣。
李開(kāi)復(fù)透露:我們 ROI 還是在 1 左右。所以這樣的結(jié)果至少?gòu)膰?guó)內(nèi)大模型公司來(lái)看是非常有優(yōu)勢(shì)的。
國(guó)內(nèi)大模型領(lǐng)域陷入混戰(zhàn)的 2023 年初,各式各樣的評(píng)測(cè)榜單鋪天蓋地,躋身各大榜單 TOP 的模型不在少數(shù)。
在 AI 1.0 時(shí)代,人工智能還未展現(xiàn)出高泛化性和涌現(xiàn)能力,針對(duì)頭部客戶做私有化部署的模式成為主流,但時(shí)間已經(jīng)證明,偏項(xiàng)目制的重交付模式所帶來(lái)的營(yíng)收增長(zhǎng)存在上限,其可持續(xù)性挑戰(zhàn)嚴(yán)峻。
如今我們正處在 AI 2.0 時(shí)代,人工智能進(jìn)入了一個(gè)新的發(fā)展階段,和 1.0 相比,AI 2.0 標(biāo)志著從基于規(guī)則的自動(dòng)化處理向深度學(xué)習(xí)和自主學(xué)習(xí)能力的飛躍。
以此看來(lái),AI 領(lǐng)域的「百團(tuán)大戰(zhàn)」,只會(huì)愈演愈烈。
從去年開(kāi)始,越來(lái)越多的國(guó)產(chǎn)大模型激烈的競(jìng)爭(zhēng)中脫穎而出,還在全球知名榜單中取得了不俗的成績(jī)。
今年,行業(yè)會(huì)進(jìn)入更為現(xiàn)實(shí)的商業(yè)落地階段,用戶都會(huì)按照應(yīng)用側(cè)所展現(xiàn)的能力,用腳投票。如何基于基座模型能力,盡可能提升應(yīng)用效果,是追趕 TC-PMF 的重要課題。
李開(kāi)復(fù)表示:
一年前,中國(guó)大模型感覺(jué)太落后于美國(guó)了。但今天我們非常自豪的說(shuō),我們狂奔了一年,在模型方面至少趕上了美國(guó)最頂尖、一年前發(fā)布的大模型產(chǎn)品,當(dāng)然以后還要繼續(xù)努力。但是,我們對(duì)未來(lái)會(huì)需要有一個(gè)沉淀和展望,不能只是拼命狂奔。
在長(zhǎng)江后浪推前浪的 AI 時(shí)代,對(duì)于用戶來(lái)說(shuō)最大的意義莫過(guò)于,在廠家的競(jìng)爭(zhēng)中知道 AI,了解 AI,使用 AI,甚至把它帶到工作、學(xué)習(xí)和生活中。