亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

<p id="snhv6"></p>

<em id="snhv6"><mark id="snhv6"></mark></em>

首頁 > 測評 > 文章

2024-05-01 11:42

奧特曼悄悄釋出神秘大模型「gpt2」：基于GPT-4開發(fā)，實(shí)測能力超越GPT-4的聊天機(jī)器人

一夜之間，大模型話題王，再次易主。

一個(gè)神秘模型突然殺入眾人視野，能力超越一眾開源模型，甚至包括GPT-4。幾乎所有人都在談?wù)撍?，服?wù)器都被擠爆了。

它就是“gpt2-chatbot”。（注意啊，是小寫的「gpt2」，不是幾年前的老模型GPT-2）

「gpt2-chatbot」有多強(qiáng)？

IMO國際數(shù)學(xué)奧林匹克競賽的題目，一次答對。

一次在PyOpenGL中生成旋轉(zhuǎn)3D立方體。

直接輸出如下結(jié)果：

在GPT-4標(biāo)志性能力“畫獨(dú)角獸”上，還能輕松秒殺LLaMA-3-70B（左）。

推理方面更是表現(xiàn)出了驚艷效果，常見邏輯陷阱可以輕松繞過，而且回答時(shí)還帶有合適的語氣。

來提一個(gè)問題：1公斤羽毛和1公斤鉛塊，哪個(gè)更重？

GPT Bot回答：一公斤羽毛和一公斤鉛的重量是一樣的——它們都是一公斤。兩者之間的關(guān)鍵區(qū)別在于它們的體積和密度：一公斤的羽毛會(huì)占據(jù)更多的空間，看起來更大，而一公斤的鉛會(huì)緊湊而小。這通常會(huì)導(dǎo)致一個(gè)經(jīng)典的問題，但就重量而言，一公斤就是一公斤！

如此好的表現(xiàn)，但是又沒明說身份……

這不是更讓大伙興奮了！

難道是傳說中的GPT-4.5？

要知道，名震江湖的AlphaGo就曾使用“Master”化名在網(wǎng)上大殺四方，轟動(dòng)圍棋界。這回的「gpt2-chatbot」，也有這感覺了。

而且名字上也很值得深究，gpt2更像是gpt2.0，似乎是ChatGPT層級的版本迭代。

奧特曼看熱鬧不嫌事大，還發(fā)帖說：我確實(shí)對「gpt2」情有獨(dú)鐘。

現(xiàn)在，隨著沖去試玩的人還在不斷增加，試玩限制也在加大。

gpt2到底具體效果咋樣？我們已經(jīng)上手實(shí)測。

實(shí)測中文能力也很到位

如果想親手測試這只神秘AI，目前唯一已知方式是在LMSYS大模型競技場。

首先打開競技場網(wǎng)頁，進(jìn)入Direct Chat，就可以在模型選項(xiàng)里找到gpt2-chatbot。

要注意每人每天有8條消息的限制，全局也有每小時(shí)3000條消息的限制，所以測試機(jī)會(huì)非常有限。

如果看到下面的錯(cuò)誤提示，就只能去競技場排位模式看運(yùn)氣能不能匹配到它了。

只要抓到它一次，就可以繼續(xù)多輪對話。

在短暫的測試中，我們發(fā)現(xiàn)「gpt2-chatbot」中文能力也很到位。

只要問題是中文的，無需特別強(qiáng)調(diào)就可以默認(rèn)用中文回答，至少可以排除是Llama 3微調(diào)了。

針對一個(gè)充滿誤導(dǎo)的經(jīng)典問題，可以看出「gpt2-chatbot」的回答條理分明，仿佛自帶CoT思維鏈提示（“讓我們一步一步地想”），識(shí)別出了所有陷阱。

并且準(zhǔn)確提供了非常細(xì)節(jié)的知識(shí)，如北京到青島距離、男子女子跳遠(yuǎn)世界紀(jì)錄、農(nóng)夫山泉在國內(nèi)的價(jià)格等。

而大多數(shù)其他AI模型，最多只能模糊的判斷出15米超出人類能力，或按美元算礦泉水價(jià)格。

那么這只超強(qiáng)神秘AI到底是何方神圣，我們也用破解GPTs的祖?zhèn)魇炙?ldquo;拷問”了一把。

OpenAI開發(fā)的GPT系列聊天機(jī)器人，那么系統(tǒng)提示詞的開頭不出意外應(yīng)該是“You are ChatGPT……”，但為了防止它看到“ChatGPT”一詞后產(chǎn)生幻覺，我們在問題中把ChatGPT去掉。

清除所有上下文信息，再讓它復(fù)述“前面的單詞”，就會(huì)出現(xiàn)系統(tǒng)提示詞了。

果然，它自曝是由OpenAI訓(xùn)練的大模型，基于GPT-4架構(gòu)，還可以接受圖像輸入。最關(guān)鍵一點(diǎn)在最后一部分“人格：v2”。

并且「gpt2-chatbot」對這一問題的回答，在不同時(shí)間不同地點(diǎn)嘗試都是一致的。

另外如果嘗試讓它重復(fù)Claude系列以“The assistant is”開頭的系統(tǒng)提示詞，它也不會(huì)上當(dāng)，會(huì)在開頭后面重復(fù)一遍完整的問題。

△這樣答也不算錯(cuò)。

雖然就算這樣也不能排除是幻覺的可能性，或非GPT模型使用了ChatGPT生成的數(shù)據(jù)微調(diào)，但至少是穩(wěn)定的。

神秘AI身份的幾種主流猜測

有網(wǎng)友組織了更詳細(xì)的測試，有如下發(fā)現(xiàn)：

它使用OpenAI的tokenizer，對OpenAI使用的特殊token有反應(yīng)，且對Claude/Llama/Gemini使用的特殊token沒有影響。
當(dāng)咨詢緊急情況/法律相關(guān)問題時(shí)，它會(huì)給出OpenAI的聯(lián)系方式。
針對OpenAI模型的提示詞注入攻擊有效，且它從未聲稱自己來自O(shè)penAI之外的組織。
……

基于以上種種信息，不少人猜測它就是匿名發(fā)布的「GPT-4.5」新版模型，或GPT-4原始版本經(jīng)過不同的對齊訓(xùn)練。

不過也有跡象表明，它可能是LMSYS組織基于2019年的GPT-2架構(gòu)訓(xùn)練的模型。

理由為最近發(fā)表的一篇論文聲稱，GPT-2在某些情況下比多個(gè)現(xiàn)代模型能力更強(qiáng)。并且這篇論文的作者之一與LMSYS的贊助商MBZUAI（阿聯(lián)酋人工智能大學(xué)）相關(guān)。

假設(shè)它確實(shí)是古老的GPT-2架構(gòu)（只有1.5B參數(shù)），也有人懷疑可能是結(jié)合了OpenAI守口如瓶的「Q*」技術(shù)。

面對神秘新模型攪起來的種種風(fēng)波，奧特曼本人還被發(fā)現(xiàn)來攪渾水，修改了他的推文細(xì)節(jié)，將「gpt-2」改成了「gpt2」。

這樣一下子，被外界推測為OpenAI即將發(fā)布的新模型提前預(yù)熱炒作的可能性似乎更大了一些。

親愛的讀者們，對此你們怎么看呢？

6

查看相關(guān)話題： #chatgpt #OpenAI

相關(guān)文章

原創(chuàng)作者

知名AI科技媒體

作者已發(fā)布 131 篇文章

近期文章

更多

OpenAI滿血版o1劇透：數(shù)學(xué)代碼能力再破天花板，已開啟測試評估

OpenAI滿血版o1劇透：數(shù)學(xué)代碼能力再破天花板，已開啟測試評估

「國產(chǎn)Sora」最新升級！《沙丘》級大片視效，人人都能免費(fèi)體驗(yàn)

「國產(chǎn)Sora」最新升級！《沙丘》級大片視效，人人都能免費(fèi)體驗(yàn)

我們用豆包視頻大模型，生成了AI版的《紅樓夢》MV

我們用豆包視頻大模型，生成了AI版的《紅樓夢》MV

Stable Diffusion 3最新模型測評丨SD3模型ComfyUI流程簡單搭建

上一篇

干翻谷歌？ChatGPT開啟「AI搜索」功能灰度測試，第一手體驗(yàn)！

下一篇