微軟推出Phi-3-mini迷你模型:蘋果iPhone端側(cè)就能運行,38億參數(shù)規(guī)模就媲美GPT-3.5性能
Llama 3發(fā)布剛幾天,微軟就出手截胡了。
當(dāng)?shù)貢r間4月22日,微軟推出了 Phi-3-Mini,這是一個在 3.3 萬億個代幣的廣泛數(shù)據(jù)集上訓(xùn)練的 38 億參數(shù)規(guī)模的微型大模型。盡管體積小巧,但 Phi-3-Mini 的性能水平可與 Mixtral 8x7B 和 GPT-3.5 等等型號相媲美的大語言模型。
剛剛發(fā)布的Phi-3系列小模型技術(shù)報告,引起AI圈熱議。
其中僅3.8B參數(shù)的Phi-3-mini在多項基準(zhǔn)測試中超過了Llama 3 8B。
為了方便開源社區(qū)使用,還特意設(shè)計成了與Llama系列兼容的結(jié)構(gòu)。
微軟這次打出“手機就能直接跑的小模型”的旗號,4bit量化后的Phi-3-mini在iPhone 14 Pro和iPhone 15搭載的蘋果A16芯片上跑出了每秒12 Tokens的數(shù)據(jù)。
這意味著,現(xiàn)在手機上能本地運行的最佳開源模型,已經(jīng)做到ChatGPT(GPT-3.5)的水平。
在技術(shù)報告中還玩了一把花活,讓Phi-3-mini自己解釋為什么構(gòu)建小到手機能跑的模型很令人驚嘆。
除了mini“迷你杯”之外,小杯中杯也一并發(fā)布:
據(jù)悉,大杯Phi-3他們目前不打算做。
作者陣容一看也不簡單,一眼掃過去MSRA和MSR雷蒙德團隊都投入了不少人。
那么,Phi-3系列到底有什么獨特之處呢?
根據(jù)技術(shù)報告中披露,其核心秘訣就在于數(shù)據(jù)。
去年團隊就發(fā)現(xiàn),單純堆砌參數(shù)量并不是提升模型性能的唯一路徑。
反而是精心設(shè)計訓(xùn)練數(shù)據(jù),尤其是利用大語言模型本身去生成合成數(shù)據(jù),配合嚴(yán)格過濾的高質(zhì)量數(shù)據(jù),反而能讓中小模型的能力大幅躍升。
也就是訓(xùn)練階段只接觸教科書級別的高質(zhì)量數(shù)據(jù),Textbooks are all you need。
Phi-3也延續(xù)了這一思路,這次他們更是下了血本:
舉個例子,比如某一天足球比賽的結(jié)果可能對于大模型是良好的訓(xùn)練數(shù)據(jù),但微軟團隊刪除了這些加強知識的數(shù)據(jù),留下更多能提高模型推理能力的數(shù)據(jù)。
這樣一來,對比Llama-2系列,就可以用更小的參數(shù)獲得更高的MMLU測試分?jǐn)?shù)了。
不過小模型畢竟是小模型,也不可避免存在一些弱點。
微軟透露,模型本身參數(shù)中沒能力存儲太多事實和知識,這一點也可以從TriviaQA測試分?jǐn)?shù)低看出來。
緩解辦法就是聯(lián)網(wǎng)接入搜索引擎增強。
總之,微軟研究院團隊是鐵了心了要在小模型+數(shù)據(jù)工程這條路上走下去,未來還打算繼續(xù)增強小模型的多語言能力、安全性等指標(biāo)。
對于開源小模型超過ChatGPT這回事,不少網(wǎng)友都認為壓力現(xiàn)在給到OpenAI這邊,需要趕快推出GPT-3.5的繼任者了。
近期文章
更多