國產(chǎn)AI創(chuàng)業(yè)公司Kimi Chat憑200萬字上下文窗口「長文本」大火,但前景可能跟淄博相似
以下文章節(jié)選自丨騰訊科技
Kimi最近太火了…
2024年第一個真正走紅的國產(chǎn)大模型?;ヂ?lián)網(wǎng)上,隨處可見Kimi打出的廣告貼。
這是AI浪潮中,國內(nèi)創(chuàng)業(yè)公司第一次真正“破圈”,在此之前都是互聯(lián)網(wǎng)大廠的獨舞。
最明顯的標(biāo)志是,在二級市場中,Kimi已被市場作為一個概念板塊來對待,它們被稱之為「Kimi概念股」,但凡名字帶有“Kimi”都會因此“獲益”。
除了資本市場的關(guān)注,實際的用戶量也在飆升。
「AI產(chǎn)品榜(aicpb.com)」統(tǒng)計的數(shù)據(jù)顯示,Kimi智能助手在2024年2月的月活訪問量達305萬,較今年1月環(huán)比成倍增長。
而根據(jù)第三方機構(gòu)的不完全統(tǒng)計顯示,目前國內(nèi)已經(jīng)發(fā)布的大型語言模型數(shù)量已經(jīng)超過了300個。
在內(nèi)卷如此競爭激烈的環(huán)境中,成立僅僅一年多的Kimi Chat母公司“月之暗面”為何引起如此高的關(guān)注?
燃爆點始于3月18日,“月之暗面”宣布在大模型長上下文窗口技術(shù)上取得新的突破,其自研的Kimi智能助手已支持200萬字超長無損上下文。
Kimi可以一次性“讀完”“讀懂”《三體》全部三部曲。你可以隨性地將任意一個網(wǎng)頁貼給Kimi,請他幫你解讀。
這種Tokens能力在全球知名大模型中的水平如何?
看下圖,國外長文本能力最強的谷歌Gemini 1.5、Claude 3支持100萬tokens,Kimi具備200萬漢字上下文Tokens長度,理論上或已超越海外頂尖大模型水平。
但是,大模型其中一項能力“遙遙領(lǐng)先”,似乎并不足以吸引所有的注意力,畢竟幾乎所有大模型在發(fā)布的時候,都會交出一個優(yōu)秀的基準(zhǔn)測試成績單,幾乎所有的大模型,都是書面成績上的「優(yōu)等生」。
所以,在這樣“卷”的大模型市場,Kimi究竟為什么會火?
其實它的火爆,也從側(cè)面反應(yīng)了大模型市場的痛點。過去一年,我們見過太多大模型的發(fā)布,每次標(biāo)準(zhǔn)動作有以下幾個:
1、公布大模型的參數(shù)量XX億
2、公布模型是開源,還是閉源
3、公布測試集的成績(這些測試集被用于評估大模型在不同領(lǐng)域的能力,包括語言理解、知識問答、文本創(chuàng)作等
4、業(yè)內(nèi)的測評文章大量釋出
一番標(biāo)準(zhǔn)動作之后,對于普通的小白用戶,面對一些晦澀難懂的技術(shù)參數(shù),是很難對某個大模型產(chǎn)生太多的深刻記憶點。
相較于其他大模型開發(fā)商,Kimi選擇了一個更有辨識度的方式亮相。
2023年10月10日,“月之暗面”宣布Kimi正式上線,通稿的標(biāo)題中別有心裁地用了「歡迎與Moonshot AI共同開啟Looooooooooong大語言模型時代」。
10個O組成的Long單詞,讓人一眼記住了Kimi的長文本吞吐能力。
“月之暗面”是懂互聯(lián)網(wǎng)營銷的,直接占領(lǐng)用戶心智。從此,當(dāng)用戶看見“長文本”三個字就能想到“月之暗面”。
這就好比當(dāng)用戶看到“華為”就能想到“遙遙領(lǐng)先”。?
與其他競品不太一樣的是,“月之暗面”的用戶群體鎖定在C端,支持更長的上下文”意味著大模型擁有更大的“內(nèi)存”。
這個世界已經(jīng)被PC、手機教育過了,每個普通人都有一個簡單粗暴”的認知——“內(nèi)存大”就意味著這款手機或電腦配置更高、性能更牛。
一波漂亮的宣傳,Kimi在“卷評測分數(shù)”的大模型界輕松地贏得了普通用戶的心。
“月之暗面”創(chuàng)始人楊植麟曾經(jīng)在采訪中強調(diào):“長文本是大模型登月第一步。它很本質(zhì),它是AI新時代的「計算機內(nèi)存」。”
占領(lǐng)用戶心智意味著在目標(biāo)消費者心中為品牌或產(chǎn)品創(chuàng)造一個獨特而鮮明的符號畫像。當(dāng)消費者考慮購買某一類產(chǎn)品或服務(wù)時,你的品牌就很有希望成為首選。
當(dāng)用戶認為在國內(nèi)的國產(chǎn)大模型里邊,「長文本=Kimi」時就贏在了起跑線上。即使“后知后覺”的百度、阿里等大廠也宣布開放長文本能力,也沒有影響到Kimi的熱度。
如果你把大模型當(dāng)成一個虛擬數(shù)字人,Tokens的長度,決定了他具備的是“短期記憶”還是“長期記憶”。
長文本能力較短的大模型,超過其上下文承載能力的部分,大模型就會忘掉。
GPT3.5-Turbo初版上下文窗口長度僅有4K token,也就是大概2000字,超過兩千字的對話內(nèi)容它就基本記不住了。
想讓ChatGPT分析更復(fù)雜文字更多的文檔就更不可能了??梢哉f,Tokens制約了大語言模型完成真正復(fù)雜、多步的操作,也無法處理復(fù)雜的論文文檔。
為了讓大模型能夠做更多事,拓展上下文就成了各路大模型爭相競逐的一個重要指標(biāo)。
“月之暗面”的故事并不新鮮。
事實上,OpenAI的競敵Claude大模型的殺手锏就是長文本,其初代模型就支持100k Token的上下文,直接可以處理5萬字,使得它總能保有一群固定追隨者。
目前使用大模型的大多數(shù)人群,還都是泛科技行業(yè),有嘗鮮能力的從業(yè)者、科技愛好者以及相關(guān)研究專業(yè)的學(xué)生,長文本處理能力毫無疑問是論文、深度研報、會議摘要這些有明確應(yīng)用場景的剛需能力。
“月之暗面”的登月第一步,從用戶需求場景出發(fā),肯定是邁對了。
但是,從技術(shù)角度來講,Kimi能領(lǐng)先多久?
進入2024年,這項技術(shù)本身已經(jīng)很難說的上是護城河了。當(dāng)下,已經(jīng)有越來越多成熟的手段去處理上下文的問題。
上下文擴展的問題之所以這么難解決,主要原因還是Transformer這個大模型基礎(chǔ)框架本身。
1)對文本長度記憶非常死板,超過訓(xùn)練集最大長度就無法處理。
2)“注意力機制”十分浪費資源,耗費算力。
3)不擅長處理遠端信息。
這三大難題其實已經(jīng)有非常多的手段去規(guī)避。學(xué)界把增加上下文的方法主要歸類為“外推”(Extrapolation)和“內(nèi)插”(Interpolation),一般都會并行使用。
“外推”負責(zé)解決訓(xùn)練外資料無法編碼的問題,并保證長文本處理的能力;此外,我們還需要讓語言模型能夠更好地理解它已經(jīng)學(xué)過的內(nèi)容,這就是“內(nèi)插”。
大家可以通俗理解為,讓大模型學(xué)習(xí)更多的新知識,以及不斷鞏固復(fù)習(xí)學(xué)過的舊知識。
我們還可以通過調(diào)整它的注意力機制,讓它可以更輕松地找到信息之間的聯(lián)系,就像是給這個超級大腦裝了一個更聰明的搜索引擎。
通過這些技術(shù)的提升,我們的語言模型變得越來越強大,雖然還不是完美無缺,但已經(jīng)能夠處理很多復(fù)雜的問題了。
微軟最近還發(fā)明了一種新的長文本解決方案,連反復(fù)訓(xùn)練和額外的硬件支持都不需要,就可以將上下文窗口拓展到200萬Tokens的水平。
從學(xué)術(shù)的角度看,業(yè)界頭部公司模型已經(jīng)對長文本取得重大突破。
早在Kimi誕生之前,美國大模型界就已經(jīng)賽過一輪長文本。
GPT4-Turbo已經(jīng)支持128K Tokens,而Claude 2.1更是突破到200K Tokens。今年2月谷歌發(fā)布的Gemini 1.5直接一步到位推到了100萬的水位,一口氣能吞下一部《哈利波特》全集的長度,和1小時時長的電影。
全球第一梯隊的三大模型,都實現(xiàn)了長文本突破。
Kimi走紅后,今年3月份,國內(nèi)的百度、阿里也加入了長文本戰(zhàn)爭,其他廠商的快速跟上,長文本的“護城河”已經(jīng)不深了。
理論上自然越長越好,但里邊存在邊際效應(yīng)。
100萬Tokens和200萬Tokens以目前來看,可能沒有本質(zhì)區(qū)別。因為各路大廠們,現(xiàn)在他們都不繼續(xù)卷了。
這是為什么?究其根本,是因為算力成本上不劃算。
上下文越長,則需要計算的量級越大。根據(jù)實際測試反饋,Gemini在回答36萬個上下文時需要約30秒,并且查詢時間隨著Token數(shù)量呈非線性上升,AI聊天機器人的應(yīng)答時間也會顯著變長。
AI大模型的計費方式是按Tokens計費,以輸入的Token數(shù)量結(jié)算,大模型開發(fā)商需要自己承擔(dān)這部分算力成本。
因此,我們會看到幾乎所有的大模型都限制了用戶的提問次數(shù)和提問Tokens長度。
誠然,未來隨著算力和模型運行速度變得越來越快,成本和用戶體感都會進一步上升。
但最近的研究表明,無限榨取大模型的上下文窗口Tokens,最終效果并不明顯,推理能力明顯出現(xiàn)衰退。所以,當(dāng)前的方法下大模型可能能記住很長上下文,但懂多少,能用多少還是存疑的。
雖然“力大飛磚”,但不一定非得死磕這條路。
100萬Token這個上下文長度,在主流的文本、代碼為主的場景下,已經(jīng)足夠滿足99%的使用場景。再卷,對用戶而言毫無價值。
隨著將來多模態(tài)大模型的發(fā)展,需要大模型Tokens更多的視頻內(nèi)容,各個模型供應(yīng)商還是有再往上卷的理由。但在當(dāng)下的算力成本之下,它的大規(guī)模應(yīng)用應(yīng)該還很難。
最后,引出一個終極問題,靠“長文本”是否能形成大模型真正的護城河?
未來是最難判斷的,關(guān)于長文本本身有多大可擴展空間。
Kimi創(chuàng)始人楊植麟的回答是:
非常大。
一方面是本身窗口的提升,有很長路要走,會有幾個數(shù)量級。另一方面是,你不能只提升窗口,不能只看數(shù)字,今天是幾百萬還是多少億的窗口沒有意義。你要看它在這個窗口下能實現(xiàn)的推理能力、對原始信息的忠實度、遵循指令的能力——不應(yīng)該只追求單一指標(biāo),而是結(jié)合指標(biāo)的綜合能力。
這波AI浪潮才剛剛開始,OpenAI CEO奧特曼也反復(fù)強調(diào)過,未來的大模型產(chǎn)品形態(tài)肯定是與今天完全不同的,就好像今天的手機與10年前大相徑庭。
我們還沒有辦法清晰地看到它未來的樣子,但是我們可以確定未來的“智能化”,將是AI技術(shù)重塑產(chǎn)品,如果一款產(chǎn)品只有20%-30%用到AI,那也不是一款人工智能產(chǎn)品。
未來的人工智能,它一定能理解你發(fā)出的超長指令,但是我們可能會忘記,AI技術(shù)一路發(fā)展走過來,曾經(jīng)有一個技術(shù)指標(biāo)叫做“長文本”。