谷歌PaLM 2大語言模型參數(shù)量曝光:對比第一代大幅減少,但訓練量翻五倍
AI奇點網(wǎng)6月5日報道丨5月初,谷歌在山景城總部舉行了一年一度的I/O 2023開發(fā)者大會,會上發(fā)布了新一代的大語言模型PaLM 2版本。谷歌 CEO 皮查伊表示,新一代的大語言模型,改進了數(shù)學、代碼、推理、多語言翻譯和自然語言生成能力。谷歌對外宣稱,大語言模型的訓練量是關(guān)鍵,參數(shù)量并不是最核心的,此言論被認為是反擊OpenAI關(guān)于“模型性能的與規(guī)模成比例的規(guī)律仍然成立”的說法。
近日,谷歌內(nèi)部文件被泄露了,大量谷歌新一代大模型 PaLM 2 的訓練細節(jié)被曝光,其中訓練數(shù)據(jù)量是前代的近 5 倍、參數(shù)量僅為第一代的 2/3 左右。谷歌官方表示,大語言模型的表現(xiàn)重點在于訓練方式,而不是參數(shù)量。不過在發(fā)布會上,谷歌并沒有給出 PaLM 2 的具體技術(shù)細節(jié)。其實這樣做的不只谷歌一家,OpenAI 也緘口不言其最新多模態(tài)大模型 GPT-4 的細節(jié)。
PaLM 2 模型特點是提供了完全不同規(guī)模的4種版本,這將有助于大模型在更輕巧的終端上落地訓練。從小到大依次為 Gecko(壁虎)、Otter(水獺)、Bison(野牛)和Unicorn(獨角獸),易于針對各種使用場景進行部署。其中最為輕量級的 Gecko 模型可以在移動設備,比如手機上運行,速度非???,不聯(lián)網(wǎng)也能在設備上運行出色的交互式應用程序。
昨日,CNBC 發(fā)表報道稱,根據(jù)他們查閱到的內(nèi)部文件顯示,PaLM 2 經(jīng)過了 3.6 萬億個 tokens 訓練。作為對比,上一代也就是第一代 PaLM 只接受了 7800 億 token 的訓練,總體數(shù)量級提高了 5 倍之多。
此外,谷歌還表示,PaLM 2 大模型遠比目前主流,也是ChatGPT采取的 LLM 規(guī)模更小,這意味著在完成更復雜任務的同時變得更高效。這一點也在內(nèi)部文件中得到了驗證,PaLM 2 的訓練參數(shù)量僅為 3400 億,遠低于 PaLM 的 5400 億。按照谷歌的觀點,PaLM 2的訓練參數(shù)量顯得更高效也更精準。而且除了Token數(shù)量的激增,PaLM2在語料庫數(shù)據(jù)的質(zhì)量選擇上也有很大的提升。
作為對比,OpenAI曾經(jīng)公開ChatGPT的GPT-3的參數(shù)量為1750億,訓練量為3000 億 token;Facebook母公司Meta 在 2 月發(fā)布的 LLaMA 大語言模型則接受了 1.4 萬億 token 的訓練。
谷歌發(fā)布的 PaLM 2 后,把主要的展示重心放在了應用落地層面,渴望展示其 AI 技術(shù)的強大能力以及如何嵌入到谷歌搜索、電子郵件、文件處理和電子表格中。但是不讓忽視的是,AI的訓練量與參數(shù)量依然是目前大語言模型表現(xiàn)至關(guān)重要的一個核心因素,考慮到商業(yè)競爭的考量,不對外公布也是情由所原。
有研究專家表達這樣一種觀點:雖然表面看起來 OpenAI 和谷歌在大語言模型上你追我趕,但真正的贏家未必會從這兩家中產(chǎn)生,因為第三方力量——「開源」大模型正在悄然崛起,AI 大模型的訓練量將會得到更多開發(fā)者的共同努力。此外,中國的國產(chǎn)大模型也在迅速的加大投資。
PaLM 2 參數(shù)被泄密,就可以倒著推敲 Bard 的能力邊界——一名網(wǎng)友表示。
而事實上,谷歌Bard 目前也擁有多項 ChatGPT不具備的能力,比如更優(yōu)質(zhì)的聯(lián)網(wǎng)搜索能力,支持圖片上直接調(diào)用Bard進行內(nèi)容檢索以及分享Bard生成內(nèi)容的能力,而ChatGPT在經(jīng)過最近一次微軟能力加持后,加入了Bing搜索的能力,上周才加入了分享按鈕;Bard可以通過Adobe FireFly獲得圖像生成的能力;免費的語音輸入能力,目前ChatGPT需要付費插件支持;更廣泛的編碼語言支持,包括 C++、Python、Java、TypeScript、JavaScript等,它可以輔助開發(fā)者進行代碼生成、解釋和調(diào)試;整合谷歌的各項服務,比如Gmail,這也是微軟所不能企及的應用落地。
總之,一場持久而轟烈的AI大模型內(nèi)卷大戰(zhàn)已經(jīng)打響,最終會鹿死誰手呢?