亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

首頁(yè)  >  資訊  >  文章
2024-02-07 18:19

阿里發(fā)力持續(xù)加碼,通義千問(wèn)再開源:Qwen V1.5版本提供六種參數(shù)版本,性能徹底碾壓GPT-3.5

AI奇點(diǎn)網(wǎng)2月7日?qǐng)?bào)道丨春節(jié)前后,內(nèi)卷依舊。趕在春節(jié)前,阿里人工智能實(shí)驗(yàn)室打造的通義千問(wèn)大模型(Qwen)的 V1.5 版上線了。新版大模型包括六個(gè)型號(hào)尺寸:0.5B、1.8B、4B、7B、14B 和 72B,其中最強(qiáng)版本的性能超越了GPT-3.5、Mistral-Medium,包括 Base 模型和 Chat 模型,且有多語(yǔ)言支持。

圖片

通義千問(wèn)團(tuán)隊(duì)表示,相關(guān)技術(shù)也已經(jīng)上線到了通義千問(wèn)官網(wǎng)和通義千問(wèn) App。

除此以外,Qwen V1.5還支持 32K 上下文長(zhǎng)度;開放了 Base + Chat 模型的檢查點(diǎn);可與 Transformers 一起本地運(yùn)行;同時(shí)發(fā)布了 GPTQ Int-4 / Int8、AWQ 和 GGUF 權(quán)重。

借助更先進(jìn)的大模型作為評(píng)委,通義千問(wèn)團(tuán)隊(duì)在兩個(gè)廣泛使用的基準(zhǔn) MT-Bench 和 Alpaca-Eval 上對(duì) Qwen1.5 進(jìn)行了初步評(píng)估,評(píng)估結(jié)果如下:

圖片

盡管落后于 GPT-4-Turbo,但最大版本的 Qwen V1.5 模型 Qwen1.5-72B-Chat 在 MT-Bench 和 Alpaca-Eval v2 上都表現(xiàn)出了可觀的效果,性能超過(guò) Claude-2.1、GPT-3.5-Turbo-0613、Mixtral-8x7b-instruct 和 TULU 2 DPO 70B,與最近熱門的新模型 Mistral Medium 不相上下。

此外通義千問(wèn)團(tuán)隊(duì)表示,雖然大模型判斷的評(píng)分似乎與回答的長(zhǎng)度有關(guān),但人類觀察結(jié)果表明 Qwen1.5 并沒(méi)有因?yàn)楫a(chǎn)生過(guò)長(zhǎng)的回答來(lái)影響評(píng)分。AlpacaEval 2.0 上 Qwen1.5-Chat 的平均長(zhǎng)度為 1618.與 GPT-4 的長(zhǎng)度一致,比 GPT-4-Turbo 短。

通義千問(wèn)的開發(fā)者表示,最近幾個(gè)月,他們一直在專注探索如何構(gòu)建一個(gè)真正「卓越」的模型,并在此過(guò)程中不斷提升開發(fā)者的使用體驗(yàn)。

相較于以往版本,本次更新著重提升了 Chat 模型與人類偏好的對(duì)齊程度,并且顯著增強(qiáng)了模型的多語(yǔ)言處理能力。在序列長(zhǎng)度方面,所有規(guī)模模型均已實(shí)現(xiàn) 32768 個(gè) tokens 的上下文長(zhǎng)度范圍支持。同時(shí),預(yù)訓(xùn)練 Base 模型的質(zhì)量也有關(guān)鍵優(yōu)化,有望在微調(diào)過(guò)程中為人們帶來(lái)更佳體驗(yàn)。

關(guān)于模型基礎(chǔ)能力的評(píng)測(cè),通義千問(wèn)團(tuán)隊(duì)在 MMLU(5-shot)、C-Eval、Humaneval、GS8K、BBH 等基準(zhǔn)數(shù)據(jù)集上對(duì) Qwen1.5 進(jìn)行了評(píng)估。

圖片

在不同模型尺寸下,Qwen1.5 都在評(píng)估基準(zhǔn)中表現(xiàn)出強(qiáng)大的性能,72B 的版本在所有基準(zhǔn)測(cè)試中都超越了 Llama2-70B,展示了其在語(yǔ)言理解、推理和數(shù)學(xué)方面的能力。

GitHub項(xiàng)目地址:

4
查看相關(guān)話題: #阿里 #通義千問(wèn)

相關(guān)文章