亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

首頁(yè) > 資訊 > 文章

2024-02-07 18:19

阿里發(fā)力持續(xù)加碼，通義千問(wèn)再開源：Qwen V1.5版本提供六種參數(shù)版本，性能徹底碾壓GPT-3.5

AI奇點(diǎn)網(wǎng)2月7日?qǐng)?bào)道丨春節(jié)前后，內(nèi)卷依舊。趕在春節(jié)前，阿里人工智能實(shí)驗(yàn)室打造的通義千問(wèn)大模型（Qwen）的 V1.5 版上線了。新版大模型包括六個(gè)型號(hào)尺寸：0.5B、1.8B、4B、7B、14B 和 72B，其中最強(qiáng)版本的性能超越了GPT-3.5、Mistral-Medium，包括 Base 模型和 Chat 模型，且有多語(yǔ)言支持。

通義千問(wèn)團(tuán)隊(duì)表示，相關(guān)技術(shù)也已經(jīng)上線到了通義千問(wèn)官網(wǎng)和通義千問(wèn) App。

除此以外，Qwen V1.5還支持 32K 上下文長(zhǎng)度；開放了 Base + Chat 模型的檢查點(diǎn)；可與 Transformers 一起本地運(yùn)行；同時(shí)發(fā)布了 GPTQ Int-4 / Int8、AWQ 和 GGUF 權(quán)重。

借助更先進(jìn)的大模型作為評(píng)委，通義千問(wèn)團(tuán)隊(duì)在兩個(gè)廣泛使用的基準(zhǔn) MT-Bench 和 Alpaca-Eval 上對(duì) Qwen1.5 進(jìn)行了初步評(píng)估，評(píng)估結(jié)果如下：

盡管落后于 GPT-4-Turbo，但最大版本的 Qwen V1.5 模型 Qwen1.5-72B-Chat 在 MT-Bench 和 Alpaca-Eval v2 上都表現(xiàn)出了可觀的效果，性能超過(guò) Claude-2.1、GPT-3.5-Turbo-0613、Mixtral-8x7b-instruct 和 TULU 2 DPO 70B，與最近熱門的新模型 Mistral Medium 不相上下。

此外通義千問(wèn)團(tuán)隊(duì)表示，雖然大模型判斷的評(píng)分似乎與回答的長(zhǎng)度有關(guān)，但人類觀察結(jié)果表明 Qwen1.5 并沒(méi)有因?yàn)楫a(chǎn)生過(guò)長(zhǎng)的回答來(lái)影響評(píng)分。AlpacaEval 2.0 上 Qwen1.5-Chat 的平均長(zhǎng)度為 1618.與 GPT-4 的長(zhǎng)度一致，比 GPT-4-Turbo 短。

通義千問(wèn)的開發(fā)者表示，最近幾個(gè)月，他們一直在專注探索如何構(gòu)建一個(gè)真正「卓越」的模型，并在此過(guò)程中不斷提升開發(fā)者的使用體驗(yàn)。

相較于以往版本，本次更新著重提升了 Chat 模型與人類偏好的對(duì)齊程度，并且顯著增強(qiáng)了模型的多語(yǔ)言處理能力。在序列長(zhǎng)度方面，所有規(guī)模模型均已實(shí)現(xiàn) 32768 個(gè) tokens 的上下文長(zhǎng)度范圍支持。同時(shí)，預(yù)訓(xùn)練 Base 模型的質(zhì)量也有關(guān)鍵優(yōu)化，有望在微調(diào)過(guò)程中為人們帶來(lái)更佳體驗(yàn)。

關(guān)于模型基礎(chǔ)能力的評(píng)測(cè)，通義千問(wèn)團(tuán)隊(duì)在 MMLU(5-shot)、C-Eval、Humaneval、GS8K、BBH 等基準(zhǔn)數(shù)據(jù)集上對(duì) Qwen1.5 進(jìn)行了評(píng)估。