亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

首頁(yè)  >  資訊  >  文章
2024-04-25 09:41

蘋果正式開源OpenELM,公開代碼、權(quán)重、數(shù)據(jù)集、訓(xùn)練全過(guò)程,大模型開源領(lǐng)域再迎一巨頭!

4月24日,蘋果開源了大語(yǔ)言模型OpenELM。這與微軟剛開源的Phi-3 Mini類似,是一款專門針對(duì)手機(jī)等移動(dòng)設(shè)備的模型。

OpenELM有指令微調(diào)和預(yù)訓(xùn)練兩種模型,一共有2.7億、4.5億、11億和30億4種參數(shù),提供生成文本、代碼、翻譯、總結(jié)摘要等功能。

雖然最小的參數(shù)只有2.7億,但蘋果使用了1.8萬(wàn)億tokens的數(shù)據(jù)進(jìn)行了預(yù)訓(xùn)練,這也是其能以小參數(shù)表現(xiàn)出超強(qiáng)性能的主要原因之一。

值得一提的是,蘋果還把訓(xùn)練OpenELM模型的深度神經(jīng)網(wǎng)絡(luò)庫(kù)CoreNet也開源了,僅1天多的時(shí)間Github就超過(guò)1100顆星。蘋果的MobileOne、CVNets、MobileViT、FastVit等知名研究都是基于CoreNet完成的。

開源地址:https://huggingface.co/collections/apple/openelm-instruct-models-6619ad295d7ae9f868b759ca?ref=maginative.com

CoreNet地址:https://github.com/apple/corenet?ref=maginative.com

論文地址:https://arxiv.org/abs/2404.14619

圖片

目前,大模型領(lǐng)域主要分為開源和閉源兩大陣營(yíng),國(guó)內(nèi)外知名閉源的代表企業(yè)有OpenAI、Anthropic、谷歌、Midjourney、Udio、百度、科大訊飛、出門問(wèn)問(wèn)、月之暗面等。

開源陣營(yíng)有Meta、微軟、谷歌、百川智能、阿里巴巴、零一萬(wàn)物等。蘋果作為手機(jī)閉源領(lǐng)域的領(lǐng)導(dǎo)者,本次卻罕見地加入開源大模型陣營(yíng),可能在效仿谷歌的方式先通過(guò)開源拉攏用戶,再用閉源產(chǎn)品去實(shí)現(xiàn)商業(yè)化營(yíng)利。

不管咋說(shuō),蘋果選擇開源對(duì)于開發(fā)者、中小企業(yè)來(lái)說(shuō)都是一個(gè)不錯(cuò)的福利。因?yàn)?,與以往只提供模型權(quán)重和推理代碼的做法不同,蘋果發(fā)布了完整的訓(xùn)練、評(píng)估框架等。

主要內(nèi)容包括數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練、微調(diào)以及評(píng)估流程,同時(shí)提供了多個(gè)預(yù)訓(xùn)練檢查點(diǎn)和訓(xùn)練日志,可以讓我們深度了解全球頂級(jí)科技公司的技術(shù)思想和開發(fā)流程。

OpenELM架構(gòu)簡(jiǎn)單介紹

OpenELM采用了無(wú)編碼器的transformer架構(gòu),并在多個(gè)方面進(jìn)行了技術(shù)創(chuàng)新。OpenELM的使用了一種“層級(jí)縮放”策略,使得模型能夠跨各個(gè)轉(zhuǎn)換器層更有效地分配參數(shù),能以最少的訓(xùn)練數(shù)據(jù)取得了更好的性能,同時(shí)極大提升準(zhǔn)確率。

例如,11億參數(shù)的OpenELM,比12億參數(shù)的OLMo模型的準(zhǔn)確率高出2.36%,而使用的預(yù)訓(xùn)練數(shù)據(jù)卻只有OLMo的一半。

圖片

此外,OpenELM不使用任何全連接層中的可學(xué)習(xí)偏置參數(shù),采用RMSNorm進(jìn)行預(yù)歸一化,并使用旋轉(zhuǎn)位置嵌入編碼位置信息。

OpenELM還通過(guò)分組查詢注意力代替多頭注意力,用SwiGLU FFN替換了傳統(tǒng)的前饋網(wǎng)絡(luò),并使用了Flash注意力來(lái)計(jì)算縮放點(diǎn)積注意力,能以更少的資源來(lái)進(jìn)行訓(xùn)練和推理。

訓(xùn)練流程與數(shù)據(jù)集

在訓(xùn)練流程中,蘋果采用了CoreNet作為訓(xùn)練框架,并使用了Adam優(yōu)化算法進(jìn)行了35萬(wàn)次迭代訓(xùn)練。

蘋果使用了批量大小為4096的小批量隨機(jī)梯度下降進(jìn)行模型參數(shù)更新,并設(shè)置了適當(dāng)?shù)膶W(xué)習(xí)率和權(quán)重衰減。

圖片

預(yù)訓(xùn)練數(shù)據(jù)集方面,OpenELM使用了包括RefinedWeb、去重的PILE、RedPajama的子集和Dolma v1.6的子集在內(nèi)的公共數(shù)據(jù)集,一共約1.8萬(wàn)億tokens數(shù)據(jù)。

此外,蘋果使用了動(dòng)態(tài)分詞和數(shù)據(jù)過(guò)濾的方法,實(shí)現(xiàn)了實(shí)時(shí)過(guò)濾和分詞,從而簡(jiǎn)化了實(shí)驗(yàn)流程并提高了靈活性。還使用了與Meta的Llama相同的分詞器,以確保實(shí)驗(yàn)的一致性。

這次蘋果真的是很有誠(chéng)意的開源,一開到底所有內(nèi)容都貢獻(xiàn)出來(lái)了,家大業(yè)大就是敢玩。這也表明蘋果進(jìn)軍大模型領(lǐng)域的決心,以后開源領(lǐng)域更熱鬧啦~

5
查看相關(guān)話題: #蘋果 #openELM #corenet

相關(guān)文章