中文字幕人妻无码专区,亚洲一区二区av在线观看,伊人情人网综合

亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

首頁(yè) > 資訊 > 文章

2024-04-25 09:41

蘋果正式開源OpenELM，公開代碼、權(quán)重、數(shù)據(jù)集、訓(xùn)練全過(guò)程，大模型開源領(lǐng)域再迎一巨頭！

4月24日，蘋果開源了大語(yǔ)言模型OpenELM。這與微軟剛開源的Phi-3 Mini類似，是一款專門針對(duì)手機(jī)等移動(dòng)設(shè)備的模型。

OpenELM有指令微調(diào)和預(yù)訓(xùn)練兩種模型，一共有2.7億、4.5億、11億和30億4種參數(shù)，提供生成文本、代碼、翻譯、總結(jié)摘要等功能。

雖然最小的參數(shù)只有2.7億，但蘋果使用了1.8萬(wàn)億tokens的數(shù)據(jù)進(jìn)行了預(yù)訓(xùn)練，這也是其能以小參數(shù)表現(xiàn)出超強(qiáng)性能的主要原因之一。

值得一提的是，蘋果還把訓(xùn)練OpenELM模型的深度神經(jīng)網(wǎng)絡(luò)庫(kù)CoreNet也開源了，僅1天多的時(shí)間Github就超過(guò)1100顆星。蘋果的MobileOne、CVNets、MobileViT、FastVit等知名研究都是基于CoreNet完成的。

開源地址：https://huggingface.co/collections/apple/openelm-instruct-models-6619ad295d7ae9f868b759ca?ref=maginative.com

CoreNet地址：https://github.com/apple/corenet?ref=maginative.com

論文地址：https://arxiv.org/abs/2404.14619

目前，大模型領(lǐng)域主要分為開源和閉源兩大陣營(yíng)，國(guó)內(nèi)外知名閉源的代表企業(yè)有OpenAI、Anthropic、谷歌、Midjourney、Udio、百度、科大訊飛、出門問(wèn)問(wèn)、月之暗面等。

開源陣營(yíng)有Meta、微軟、谷歌、百川智能、阿里巴巴、零一萬(wàn)物等。蘋果作為手機(jī)閉源領(lǐng)域的領(lǐng)導(dǎo)者，本次卻罕見地加入開源大模型陣營(yíng)，可能在效仿谷歌的方式先通過(guò)開源拉攏用戶，再用閉源產(chǎn)品去實(shí)現(xiàn)商業(yè)化營(yíng)利。

不管咋說(shuō)，蘋果選擇開源對(duì)于開發(fā)者、中小企業(yè)來(lái)說(shuō)都是一個(gè)不錯(cuò)的福利。因?yàn)?，與以往只提供模型權(quán)重和推理代碼的做法不同，蘋果發(fā)布了完整的訓(xùn)練、評(píng)估框架等。

主要內(nèi)容包括數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練、微調(diào)以及評(píng)估流程，同時(shí)提供了多個(gè)預(yù)訓(xùn)練檢查點(diǎn)和訓(xùn)練日志，可以讓我們深度了解全球頂級(jí)科技公司的技術(shù)思想和開發(fā)流程。

OpenELM架構(gòu)簡(jiǎn)單介紹

OpenELM采用了無(wú)編碼器的transformer架構(gòu)，并在多個(gè)方面進(jìn)行了技術(shù)創(chuàng)新。OpenELM的使用了一種“層級(jí)縮放”策略，使得模型能夠跨各個(gè)轉(zhuǎn)換器層更有效地分配參數(shù)，能以最少的訓(xùn)練數(shù)據(jù)取得了更好的性能，同時(shí)極大提升準(zhǔn)確率。

例如,11億參數(shù)的OpenELM，比12億參數(shù)的OLMo模型的準(zhǔn)確率高出2.36%,而使用的預(yù)訓(xùn)練數(shù)據(jù)卻只有OLMo的一半。

此外，OpenELM不使用任何全連接層中的可學(xué)習(xí)偏置參數(shù)，采用RMSNorm進(jìn)行預(yù)歸一化，并使用旋轉(zhuǎn)位置嵌入編碼位置信息。

OpenELM還通過(guò)分組查詢注意力代替多頭注意力，用SwiGLU FFN替換了傳統(tǒng)的前饋網(wǎng)絡(luò)，并使用了Flash注意力來(lái)計(jì)算縮放點(diǎn)積注意力，能以更少的資源來(lái)進(jìn)行訓(xùn)練和推理。

訓(xùn)練流程與數(shù)據(jù)集

在訓(xùn)練流程中，蘋果采用了CoreNet作為訓(xùn)練框架，并使用了Adam優(yōu)化算法進(jìn)行了35萬(wàn)次迭代訓(xùn)練。

蘋果使用了批量大小為4096的小批量隨機(jī)梯度下降進(jìn)行模型參數(shù)更新，并設(shè)置了適當(dāng)?shù)膶W(xué)習(xí)率和權(quán)重衰減。

預(yù)訓(xùn)練數(shù)據(jù)集方面，OpenELM使用了包括RefinedWeb、去重的PILE、RedPajama的子集和Dolma v1.6的子集在內(nèi)的公共數(shù)據(jù)集，一共約1.8萬(wàn)億tokens數(shù)據(jù)。

此外，蘋果使用了動(dòng)態(tài)分詞和數(shù)據(jù)過(guò)濾的方法，實(shí)現(xiàn)了實(shí)時(shí)過(guò)濾和分詞，從而簡(jiǎn)化了實(shí)驗(yàn)流程并提高了靈活性。還使用了與Meta的Llama相同的分詞器，以確保實(shí)驗(yàn)的一致性。

這次蘋果真的是很有誠(chéng)意的開源，一開到底所有內(nèi)容都貢獻(xiàn)出來(lái)了，家大業(yè)大就是敢玩。這也表明蘋果進(jìn)軍大模型領(lǐng)域的決心，以后開源領(lǐng)域更熱鬧啦~