野花免费观看日本韩国 ,中出あ人妻熟女中文字幕,亚洲精品久久国产精品

首頁 > 資訊 > 文章

2024-07-23 14:48

首個超越 GPT-4o 的開源模型Llama 3.1提前泄露！Hugging Face 緊急 404 | 附下載鏈接

坐擁最強大模型寶座兩個月后，GPT-4o 的霸主級地位也不穩(wěn)了。

在 5 月份的春季發(fā)布會上，OpenAI 發(fā)布了多模態(tài)大模型 GPT-4o ，再次奪回了最強大模型的寶座，當時業(yè)界的目光也投向了 Meta 的 Llama 3-405B，期待這款開源大模型能夠撼動 GPT-4o 的統(tǒng)治地位。

前不久，外媒 The Information 放出消息稱，Meta Llama 3 405B 將于當?shù)貢r間 7 月 23 日正式發(fā)布，但沒想到趕在發(fā)布的前一天，新模型 Llama 3.1 的關(guān)鍵「情報」已經(jīng)不脛而走。

從 Llama 3.1 泄露的基準測試結(jié)果來看，Llama 3.1-405B 在 boolq、gsm8k、hellaswag 等多項基準測試得分均超越了 GPT-4o，甚至 70B 版本也能與 GPT-4o 互有勝負。

根據(jù)附帶的說明，這還只是 base(基礎(chǔ))模型的評測結(jié)果，經(jīng)過進一步指令微調(diào)，性能還有望提升。也就是說，如果泄露的數(shù)據(jù)靠譜，那么 Llama 3.1 或?qū)⑸涎菀粓鲩_源逆襲最強閉源大模型的史詩級奇跡。

值得注意的是，泄露的 Meta Llama 3.1-8B 的紙面實力幾乎接近 Meta-Llama-3-70B 版本，繼上周 OpenAI 發(fā)布的 GPT-4o mini 之后，這或許又是一次小模型「以小勝大」的標志性案例。

根據(jù)泄漏的模型卡，Llama 3.1 的基本參數(shù)也相當亮眼。

Meta Llama 3.1 是一個經(jīng)過預(yù)訓(xùn)練和指令微調(diào)的多語言大模型，擁有 8B、70B、405B 等不同版本。

支持英語、德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語等多種語言。

模型的上下文長度為 128K，基于優(yōu)化的 Transformer 架構(gòu)，采用自回歸語言模型。

Llama 3.1 使用了自定義訓(xùn)練庫和 Meta 定制的 GPU 集群，使用來自公開來源的約 15 萬億個 token 數(shù)據(jù)進行了預(yù)訓(xùn)練，預(yù)訓(xùn)練數(shù)據(jù)的截止日期為 2023 年 12 月。

附上泄漏模型卡的地址：https://pastebin.com/9jGkYbXY

有意思的是，根據(jù)此前 Hugging Face 某個工程師泄露的信息，面對令眾多大模型頻繁翻車的「9.11 和 9.9 哪個大」難題，Llama 3.1-405B 也能游刃有余。

不過，先別急著高興，Smol AI 團隊整理目前泄露版表格中的數(shù)據(jù)并制作了可視化的對比表格，最終的結(jié)論是：

8B 模型的性能有了顯著提升，各方面都有所改進;而 70B 模型略有提升。相比之下，405B 模型仍然不及旗艦?zāi)Ｐ汀?/p>

甚至有網(wǎng)友將 Llama 3.1-405B 與 Claude 3.5 Sonnet 的基準測試結(jié)果進行了對比，結(jié)果顯示前者在代碼生成和多語言數(shù)學(xué)方面等多個領(lǐng)域均遜于 Claude 3.5 Sonnet。

目前 Llama 3.1-405B Huggingface 的下載鏈接已經(jīng)「404」了，而根據(jù)泄露的磁力鏈接，405B 模型權(quán)重預(yù)計將占用 820GB 硬盤空間，這對于普通獨立開發(fā)者來說顯然不太友好。

附上磁力鏈接地址：

Magnet:?xt=urn:btih:c0e342ae5677582f92c52d8019cc32e1f86f1d83&dn=miqu-2&tr=udp%3A%2F%

X 用戶 @ArtificialAnlys 也預(yù)測了 Llama 3.1 405B 的質(zhì)量與價格定位：

Llama 3.1 405B 將比當前的最先進模型(如 GPT-4o 和 Claude 3.5 Sonnet)便宜，但質(zhì)量相當，從而在價格與質(zhì)量的最優(yōu)組合中占據(jù)新的位置。

服務(wù)商可能會針對不同的價格點提供 FP16 和 FP8 兩種版本(FP16 需要 2 倍 DGX 系統(tǒng)，配備 8 個 H100s)。

405B 的 FP8 版本可能成為更重要的產(chǎn)品，有可能以每千次請求 1.50 至 3 美元的價格(混合比例 3:1)提供最先進水平的智能。

我們預(yù)測 FP16 的價格將在每千次請求 3.5 至 5 美元之間(混合比例 3:1)，而 FP8 的價格將在每千次請求 1.5 至 3 美元之間。

而在 Llama 3.1 因泄露一事鬧得沸沸揚揚的同期，擅長截胡對手的 OpenAI 卻還沉浸在上周發(fā)布的 GPT-4o mini 的戰(zhàn)果之中。同期，Sam Altman 還在 X 上發(fā)文稱，

GPT-4 mini 于 4 天前推出，每天已經(jīng)處理超過 200B tokens，很高興聽到人們有多喜歡新模型。

倘若最終發(fā)布的 Llama 3.1 真的能夠奪走最強大模型的寶座，我們有理由期待，原本計劃年底發(fā)布的 ChatGPT 下一個大版本是否會提前與我們見面。

并且，隨著 2024 年的日歷翻到下半年，AI 領(lǐng)域卻呈現(xiàn)了小模型扎堆內(nèi)卷的激烈態(tài)勢。從此次泄露的信息來看，8B 和 70B 肉眼可見的進步也充分展示了小模型的巨大潛力。

更多具體的信息仍有待官方正式版本的發(fā)布，屆時 APPSO 將第一時間為大家?guī)碜钚碌南ⅰ?/p>

本文轉(zhuǎn)自Appso

查看相關(guān)話題： #OpenAI #meta.Llama 3.1

相關(guān)文章

被主編折磨的小編一枚

作者已發(fā)布 61 篇文章

近期文章

Kimi上線探索版，單次精度500頁丨快手推出Pyramid Flow開源文生視頻模型丨特斯拉無人駕駛Cybercab驚艷亮相

最新AI硬件測評 | 字節(jié) Ola Friend 耳機體驗，首款智能體耳機表現(xiàn)怎么樣

微軟Office全家桶再爆辦公革命丨谷歌搜索將標注AI生成圖片丨OpenAI 安全委員會將成為獨立董事會監(jiān)督小組

谷歌AI天氣「神算」登Nature：30秒模擬22天天氣，效率暴漲10萬倍！

Meta發(fā)布Llama 3.1開源大模型丨巴黎奧運會與阿里通義達成AI技術(shù)合作丨馬斯克完成全球最強AI算力集群