OpenAI奧特曼扮演“謎語人”瘋狂預熱新模型:神秘大模型「gpt2」火爆內測,傳聞5月10日凌晨正式上線
最近的這一周,OpenAI正在秘密[A/B]對照組測試下一代大模型,實力超強,甚至被一部分網(wǎng)友懷疑是所謂的「GPT-4.5」,甚至是「GPT-5」。
就在奧特曼在推特(X)平臺上頻頻發(fā)文當“謎語人”暗示之后,兩款新模型悄悄上線大模型競技場。
① Im-a-good-gpt2-chatbot
② Im-also-a-good-gpt2-chatbot
第一組對比提示詞:畫一個自由女神像。
GPT-4 Turbo是左邊的結果輸出,gpt2-chatbot是右邊的結果輸出,一目了然「gpt2」明顯更勝一籌。
此前一款名為「gpt2-chatbot」的超強模型僅僅上線一天,熱情的網(wǎng)友就把服務器擠爆了。
更多的網(wǎng)友們在聽說此事后,已經(jīng)紛紛前去測試,一探它們的底細了。
和第一次露面有所不同,如今想要在大模型競技場里邊碰上「gpt2」,只能碰運氣。有的人運氣好,試了抽卡了5次就成功讓這倆模型battle了一局。
結合幾個示例來看,im-also-a-good-gpt2-chatbot生成的回答似乎總是更簡潔一些。
代碼生成方面,它能一次生成一個可執(zhí)行的游戲代碼。
提示詞:Code Flappy Bird game in Python
效果如下:
如果回答的代碼有誤,可以進一步追問讓它自己改正。
比如讓它們寫一個康威生命游戲的代碼,在未告知使用Colab時,模型寫出的代碼有問題。
但繼續(xù)追問并表示自己用的是Colab,im-also-a-good-gpt2-chatbot能夠自己修改對代碼,im-a-good-gpt2-chatbot不行。
還有在解決物理題方面,有Reddit用戶說,im-also-a-good-gpt2-chatbot能解答出其他模型都答不對的特難物理題目。
比如這道題:
綠燈俠從一棟高樓樓頂跳下,他從靜止狀態(tài)開始做自由落體運動到地面,在他下落過程的最后一秒時,距離地面的距離是大樓一半的高度,這座樓有多高?
不過我們實測了下,im-a-good-gpt2-chatbot似乎也能做對。
還有人測試了一道推理題目,im-a-good-gpt2-chatbot可回答正確,im-also-a-good-gpt2-chatbot也能做到,但需要兩次提示。
提問:現(xiàn)在有兩個足球隊。球隊A贏了8次,球隊B贏了5次,已知還剩7次比賽,球隊B想要贏得整場比賽,還需要至少贏幾次?
盡管OpenAI還是沒有正式認領「gpt2-chatbot」,但網(wǎng)友幾乎已經(jīng)默認它們是一家了。因此有人覺得,「gpt2-chatbot」在競技場上搞A/B測試,這不是讓大家免費給他當志愿者。
OpenAI想要對內部模型進行人工評估,應該付給測試人員報酬,而不是在免費社區(qū)做。
有人覺得他們這么做,就是為了新模型準備上線而做的炒熱度。
但現(xiàn)在gpt2-chatbot的底層模型到底是啥還不確定。
有人直接問了gpt2-chatbot,但可能存在幻覺,它表示自己基于GPT-4架構,是GPT-4.5的變體。
但之前奧特曼在公開演講中已經(jīng)否定了。測試網(wǎng)友表示自己沒有給出過GPT-4.5相關的提示內容。
也有人懷疑,這兩個模型大小不一樣,叫這個名字是不是因為采用了GPT-2的架構來訓練模型。
這和單純的MoE不同,它們使用了「Q*」、合成數(shù)據(jù),Sam的推特編輯歷史是不是暗示了這一點?
值得一提的是,最近有大V爆料稱,本周OpenAI將公布進軍搜索引擎的消息。
OpenAI已經(jīng)更新了網(wǎng)站主頁,第一個輪番頁是一個搜索框上面寫著“向ChatGPT問任何事情”。
爆料說,這次新模式的發(fā)布時間會在北京時間本周五(5月10日)的凌晨2點。
總之,最近OpenAI的各種動向,都帶著某種神秘感。
近期文章
更多