中文字幕不卡乱偷在线观看,野花免费观看日本韩国,自拍偷在线精品自拍偷

亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

首頁(yè) > 資訊 > 文章

2024-05-14 18:09

OpenAI重新定義AI時(shí)代！全新旗艦GPT-4o大模型干翻所有語(yǔ)音助手，AI語(yǔ)音完美復(fù)現(xiàn)科幻電影人工智能形象

摘要

OpenAI說(shuō)要改變歷史，他們做到了！今夜的發(fā)布會(huì)上，「Her」徹底成真。

GPT-4o加持的ChatGPT，和人類(lèi)的對(duì)話(huà)絲滑得像個(gè)真人，驚掉在場(chǎng)所有觀(guān)眾的下巴。

眼看著科幻中的設(shè)想一件件成真，活在這個(gè)「奇點(diǎn)」臨近的時(shí)代，我們何其幸運(yùn)。

傳奇一夜，OpenAI要改變歷史?？赐臧l(fā)布會(huì)的觀(guān)眾們，久久未從巨大的震驚中走出——科幻電影中的「Her」，在此刻成真了！

在全場(chǎng)歡呼中，CTO Mira Murati走到臺(tái)上，為全世界揭曉了OpenAI神秘新產(chǎn)品的面紗——

GPT-4o，在千呼萬(wàn)喚中登場(chǎng)了。

現(xiàn)場(chǎng)演示中，它的表現(xiàn)仿佛一個(gè)人正坐在旁邊，和人類(lèi)的對(duì)話(huà)節(jié)奏自然、融洽，完全聽(tīng)不出是個(gè)AI。從今夜之后，人機(jī)交互徹底進(jìn)入新的時(shí)代！

這也正呼應(yīng)著它名字中的玄機(jī)：「o」代表著「omni」，意味著OpenAI朝著更自然的人機(jī)交互邁出了重要一步。

在短短232毫秒內(nèi)，GPT-4o就能對(duì)音頻輸入做出反應(yīng)，平均為320毫秒。這個(gè)反應(yīng)時(shí)間，已經(jīng)達(dá)到了人類(lèi)的級(jí)別！

并且，它可以將文本、音頻、圖像任何組合作為輸入和輸出。

而在英語(yǔ)文本和代碼基準(zhǔn)測(cè)試中，GPT-4o的性能與GPT-4 Turbo不相上下，并在非英語(yǔ)文本得到顯著改進(jìn)。

更值得一提的是，這款全新的AI模型，免費(fèi)向所有人提供GPT-4級(jí)別的AI。

現(xiàn)在，進(jìn)入ChatGPT頁(yè)面，ChatGPT Plus用戶(hù)可以搶先體驗(yàn)「最新、最先進(jìn)的模型」GPT-4o。

Sam Altman親自在推特（X）上發(fā)起了產(chǎn)品介紹。

Altman介紹道「GPT-4o是OpenAI有史以來(lái)最好的模型，它很聰明，速度很快，是天然的多模態(tài)。」

而且，所有ChatGPT用戶(hù)都可以使用，完全免費(fèi)！

Altman特意強(qiáng)調(diào)，此前雖然只有按月付費(fèi)的用戶(hù)才能使用GPT-4級(jí)別的模型，但這可不是OpenAI的本意哦。

「我們的初心，就是把最出色的AI工具，交到每個(gè)人的手中?！?/p>

一夜顛覆語(yǔ)音助手：全新旗艦GPT-4o登場(chǎng)

當(dāng)然，這次發(fā)布會(huì)的壓軸主角，就是OpenAI推出的旗艦?zāi)Ｐ虶PT-4o了。

這個(gè)帶著光環(huán)登場(chǎng)的模型，其最大意義就在于，把GPT-4級(jí)別的智能，帶給了OpenAI的每一位用戶(hù)！

從此以后，無(wú)論你是付費(fèi)用戶(hù)，還是免費(fèi)用戶(hù)，都能通過(guò)它體驗(yàn)GPT-4了。

唯一不同的是，ChatGPT Plus的消息限制是免費(fèi)用戶(hù)的5倍。并且，GPT-4o不僅提供與GPT-4同等程度的模型能力，推理速度還更快，還能提供同時(shí)理解文本、圖像、音頻等內(nèi)容的多模態(tài)能力。

注意，GPT-4o接下來(lái)要放大招了。

實(shí)時(shí)語(yǔ)音對(duì)話(huà)：ChatGPT完美變身智能機(jī)器人「Moss」

研發(fā)負(fù)責(zé)人Mark Chen首先展示的，是全新ChatGPT的關(guān)鍵功能之一——實(shí)時(shí)語(yǔ)音對(duì)話(huà)。

他向它問(wèn)道：「我正在臺(tái)上，給大家做現(xiàn)場(chǎng)演示呢，我有點(diǎn)緊張，該怎么辦呀?」

ChatGPT非常體貼地表示：「你在臺(tái)上做演示嗎，那你真的太棒了！深呼吸一下吧，記得你是個(gè)專(zhuān)家！」

Mark瘋狂地大喘氣幾次，問(wèn)ChatGPT能給自己什么建議嗎？

它驚訝地說(shuō)道：「放松啊Mark，慢點(diǎn)呼吸，你可不是個(gè)吸塵器！」（它的幽默感引來(lái)全場(chǎng)哄笑）

注意，在這個(gè)過(guò)程中，ChatGPT和Mark的互動(dòng)幾乎無(wú)延遲，隨時(shí)接梗，共情能力滿(mǎn)分。

而且，模型能夠理解人類(lèi)在對(duì)話(huà)中適時(shí)「打斷」的習(xí)慣，會(huì)及時(shí)停下來(lái)聽(tīng)你說(shuō)話(huà)，并給出相應(yīng)的回復(fù)，而且也不會(huì)「斷片」。

比如，Mark表示自己要再試一遍深呼吸，此時(shí)ChatGPT也恰到好處地插進(jìn)來(lái)接話(huà)說(shuō)「慢慢呼氣」。

整個(gè)過(guò)程，自然連貫得仿佛它是個(gè)坐在你對(duì)面的人類(lèi)，完全沒(méi)有AI的機(jī)械感和僵硬感！

相比反應(yīng)遲鈍、沒(méi)法打斷還缺少情商的Siri等語(yǔ)音助手，這局ChatGPT完勝。

這，才是人類(lèi)最理想AI語(yǔ)音助手的樣子啊，「Moss」果然成真了!

不僅如此，ChatGPT的「高情商」也讓觀(guān)眾們驚呼太頂了!

對(duì)話(huà)中，它可以聽(tīng)懂用戶(hù)說(shuō)話(huà)時(shí)不同的語(yǔ)調(diào)、語(yǔ)氣，還能根據(jù)自己的臺(tái)詞生成不同語(yǔ)氣的語(yǔ)音，完全沒(méi)有「機(jī)械感」。

扮演不同角色，給任性的人類(lèi)講睡前故事

接下來(lái)，ChatGPT被要求講一個(gè)睡前故事，主題是「戀愛(ài)中的機(jī)器人」。

ChatGPT沒(méi)講幾秒，就被人類(lèi)粗暴地打斷了：「多點(diǎn)情緒，故事里來(lái)點(diǎn)戲劇性行不？」

ChatGPT表示ok，用更起伏的聲調(diào)、更夸張的語(yǔ)氣開(kāi)始講起了故事。

結(jié)果沒(méi)幾秒，它又被再次打斷：「不行不行，再多點(diǎn)情感，給我最大程度的表達(dá)可以嗎？」

接下來(lái)，我們聽(tīng)到一個(gè)仿佛在舞臺(tái)上表演莎劇的ChatGPT，語(yǔ)氣夸張到仿佛是個(gè)戲劇演員。

隨后，它又多次被打斷，并且耐心地按照人類(lèi)的要求，依次變成了機(jī)器人聲和唱歌模式。

ChatGPT聽(tīng)到要求自己唱歌時(shí)，甚至嘆了口氣，然后開(kāi)始亮起了優(yōu)美的歌喉。

這也就是ChatGPT脾氣好，要是真人，估計(jì)要被暴打了。不過(guò)它無(wú)奈嘆氣的那個(gè)瞬間，一瞬間的確san值狂掉——真的好像人啊!

視頻實(shí)時(shí)互動(dòng)解方程

秀完情商，ChatGPT要開(kāi)始秀智商了。

下一個(gè)任務(wù)，另一位研發(fā)負(fù)責(zé)人Barret手寫(xiě)了一個(gè)方程，并打開(kāi)攝像頭拍給ChatGPT，讓它扮演「在線(xiàn)導(dǎo)師」的角色幫助自己解題，而且只能給提示，不能直接說(shuō)答案。

接到任務(wù)的ChatGPT，甚至開(kāi)心大叫：「Oops，我好興奮??！」

小哥在紙上寫(xiě)下這樣一個(gè)方程：3x+1=4，然后問(wèn)ChatGPT自己寫(xiě)的是什么方程，ChatGPT語(yǔ)調(diào)自然地回答出來(lái)了。

隨后，在小哥的要求下，它一步一步說(shuō)出了解題步驟。

最厲害的是，隨著小哥在攝像頭中解題，ChatGPT實(shí)時(shí)地就給出了鼓勵(lì)和引導(dǎo)。

而且可怕的是，時(shí)間上沒(méi)有絲毫延遲，這邊人還在算呢，那邊就實(shí)時(shí)給出了評(píng)價(jià)和反饋。(說(shuō)背后沒(méi)藏個(gè)人還真不信呢)

想起之前去年底谷歌放出來(lái)的剪輯版的Gemini語(yǔ)音互動(dòng)演示，相比之下簡(jiǎn)直啪啪打臉。

當(dāng)被問(wèn)到「學(xué)習(xí)線(xiàn)性方程在生活中有什么用」這樣的問(wèn)題時(shí)，ChatGPT還會(huì)舉出實(shí)際的例子對(duì)你「循循善誘」：

這是個(gè)不錯(cuò)的問(wèn)題，雖然我們沒(méi)有注意到，但線(xiàn)性方程在每天的生活中都會(huì)出現(xiàn)，比如計(jì)算花銷(xiāo)、規(guī)劃旅行、烹飪，甚至在商業(yè)中進(jìn)行盈虧計(jì)算。這基本上是解決問(wèn)題的一種方式，你需要找到一個(gè)未知變量......

不僅言之有物，而且態(tài)度及其和藹，說(shuō)話(huà)說(shuō)到一半被打斷時(shí)都不會(huì)生氣。

方程的任務(wù)告一段落，兩人還現(xiàn)場(chǎng)來(lái)了一波表白——在紙上寫(xiě)下「我??ChatGPT」。

ChatGPT看到后，驚喜又害羞地說(shuō)：「哦，你竟然說(shuō)愛(ài)我，你太甜了！」

桌面版ChatGPT秒解代碼難題

解方程任務(wù)也許還不能充分展現(xiàn)ChatGPT的能力，于是OpenAI又上了一波難度——看代碼，并進(jìn)行簡(jiǎn)短描述。

模型幾乎是立即理解了代碼，并給出了絲滑且完整的描述。

比如準(zhǔn)確對(duì)應(yīng)了函數(shù)名及其功能，并識(shí)別出了其中取平均值、最高值等操作的意圖。

當(dāng)被問(wèn)到「如果沒(méi)有foo這個(gè)函數(shù)，繪制的圖表會(huì)是什么樣子」，ChatGPT也立即做出了正確回復(fù)，可見(jiàn)已經(jīng)完美理解了代碼中的內(nèi)在邏輯。

接下來(lái)，ChatGPT還被要求概述代碼生成的圖表，并回答用戶(hù)問(wèn)題。

不出意外，圖表中各方面的關(guān)鍵信息也都被ChatGPT精準(zhǔn)捕捉到了，包括x、y軸的信息與范圍、數(shù)據(jù)標(biāo)注的含義等。

隨后Mark提出的問(wèn)題是「你看到哪個(gè)月的氣溫最高?對(duì)應(yīng)的最高氣溫大概是多少?」

這種能作為學(xué)校數(shù)學(xué)考試題目的圖表理解任務(wù)，ChatGPT解決起來(lái)也幾乎沒(méi)有障礙，還能像接受面試一樣實(shí)時(shí)回答你的問(wèn)題。

直播觀(guān)眾提問(wèn)：給你看看我的自拍

還有彩蛋

發(fā)布會(huì)在線(xiàn)上同步直播，于是主持人收集了一些推特網(wǎng)友的提問(wèn)，并且當(dāng)場(chǎng)展示。

這可以說(shuō)是比演示更加刺激的環(huán)節(jié)，在沒(méi)有準(zhǔn)備和彩排的情況下，這可是真刀真槍地檢驗(yàn)?zāi)Ｐ蛯?shí)力了。

第一位網(wǎng)友的提問(wèn)是「GPT-4o是否具有實(shí)時(shí)翻譯功能？」

隨后，在Mark的任務(wù)定義下，ChatGPT完成了將英語(yǔ)「同聲傳譯」為意大利語(yǔ)的任務(wù)。

第二位網(wǎng)友的提問(wèn)是「模型可以只通過(guò)我的表情識(shí)別情緒嗎?」

研發(fā)負(fù)責(zé)人Barett也沒(méi)在怕，拿起手機(jī)就照了一張自拍，甩給了ChatGPT，問(wèn)道「我現(xiàn)在是什么情緒呢?」

ChatGPT不知是幽默了一把還是翻車(chē)了，說(shuō)「我好像在看一個(gè)木質(zhì)表面的東西」。

見(jiàn)勢(shì)不好，Barett匆忙打斷。他在提示工程方面也是經(jīng)驗(yàn)頗深，一句話(huà)就將對(duì)話(huà)拉回正軌：「那是我之前發(fā)給你的的東西，不用擔(dān)心，我不是一張桌子」。

ChatGPT表示，啊，這就對(duì)了嘛。再次引起全場(chǎng)哄笑。這次它給出了非常「人性化」的正確答案——

「看起來(lái)你非常開(kāi)心快樂(lè)，帶著大大的笑容，可能甚至有一點(diǎn)興奮。無(wú)論正在發(fā)生什么事，似乎你心情很好，愿意分享一下有什么高興事嗎?」

Barett順勢(shì)表示：「我開(kāi)心的原因是我們正在做演示，你的表現(xiàn)很棒?！?/p>

受到夸獎(jiǎng)的ChatGPT居然很風(fēng)趣地來(lái)了一句「哦，別說(shuō)了，你都讓我臉紅了」，再次逗笑了全場(chǎng)。

GPT-4o強(qiáng)在哪兒？

在過(guò)去幾年里，OpenAI一直在專(zhuān)注于提升模型的智能水平。

雖然后者已經(jīng)達(dá)到了一個(gè)相當(dāng)?shù)乃剑牵裉爝@是第一次，模型在易用性方面，邁出了一大步！

為什么會(huì)把模型的易用性提到如此戰(zhàn)略層面的高度？這是因?yàn)椋词挂粋€(gè)AI再?gòu)?qiáng)大，如果它不能和人有效互動(dòng)，也就失去了意義。在這個(gè)過(guò)程中，OpenAI所著眼的，是人類(lèi)和機(jī)器交互的未來(lái)。

而今天GPT-4o的發(fā)布，可能會(huì)成為一個(gè)分水嶺，讓人機(jī)協(xié)作的范式徹底邁入一個(gè)新階段。為此，OpenAI希望把GPT-4o和人類(lèi)的互動(dòng)，打造得格外舒服自然。不過(guò)，雖然這個(gè)理想很宏大，但是在實(shí)際操作過(guò)程中，卻遭遇了不小的困難。

毫秒級(jí)響應(yīng)，與人類(lèi)對(duì)話(huà)一致

首先，在人類(lèi)之間互動(dòng)時(shí)，有很多東西是我們認(rèn)為理所當(dāng)然的，但要讓AI理解這些，就變得很困難。

比如，我們的談話(huà)經(jīng)常被打斷，談話(huà)過(guò)程中會(huì)有背景噪聲，會(huì)有多個(gè)人同時(shí)說(shuō)話(huà)的情況，說(shuō)話(huà)人的語(yǔ)氣語(yǔ)調(diào)也經(jīng)常發(fā)生微妙的變化。

OpenAI克服了很大困難，花費(fèi)了數(shù)月的時(shí)間，終于打造出了完美適應(yīng)這些狀況的GPT-4o。

在GPT-4o發(fā)布之前，通過(guò)語(yǔ)音模式（Voice Mode）與ChatGPT對(duì)話(huà)，平均延遲為2.8秒（GPT-3.5）和5.4秒（GPT-4）。

當(dāng)時(shí)，為了實(shí)現(xiàn)這一點(diǎn)，「語(yǔ)音模式」設(shè)有三個(gè)獨(dú)立模型的管線(xiàn)：

一個(gè)簡(jiǎn)單模型將音頻轉(zhuǎn)錄成文本
GPT-3.5或GPT-4接收文本并輸出文本
第三個(gè)簡(jiǎn)單模型將文本轉(zhuǎn)換回音頻

這一過(guò)程走下來(lái)，意味著主要的智能來(lái)源GPT-4就丟失了很多信息：

不能直接觀(guān)察語(yǔ)氣、多位說(shuō)話(huà)者或背景噪音，也無(wú)法無(wú)法輸出笑聲、歌聲或表達(dá)情感。而這也導(dǎo)致了延遲，大大破壞了我們和ChatGPT協(xié)作的沉浸感。

但現(xiàn)在，GPT-4o讓一切都發(fā)生得很自然。它能以平均320毫秒，做出響應(yīng)。

它可以跨越語(yǔ)音、文本、視覺(jué)多種形式，直接進(jìn)行推理

GPT-4o是OpenAI首個(gè)端到端訓(xùn)練的跨越文本、視覺(jué)和音頻的新模型，意味著所有輸入和輸出都由相同的神經(jīng)網(wǎng)絡(luò)處理。

這就會(huì)徹底顛覆ChatGPT 1億用戶(hù)的工作和生活。

不僅如此，由于GPT-4o是「原生的多模態(tài)」，自然地集成了語(yǔ)言、視覺(jué)和音頻等多種能力。

用戶(hù)可以上傳各種圖片、視頻，以及包含圖片和文字的文檔，討論其中的內(nèi)容。

GPT-4o也內(nèi)置了搜索功能，可以實(shí)時(shí)搜索網(wǎng)頁(yè)信息來(lái)回復(fù)用戶(hù)。

相比ChatGPT，GPT-4o的記憶能力更是提升了不少，不僅在對(duì)話(huà)中可以記住你提過(guò)的問(wèn)題，還能記住你們之間的所有對(duì)話(huà)，提供「連續(xù)感」。

更高級(jí)的是，新版模型還具備了數(shù)據(jù)分析能力，可以理解并分析用戶(hù)上傳的數(shù)據(jù)和圖表。

而且，為了真正實(shí)現(xiàn)「讓AGI惠及全人類(lèi)」的愿景，GPT-4o有50種語(yǔ)言的版本，并改進(jìn)了推理的質(zhì)量和速度，這也就意味著，全球97%的人口都可以使用GPT-4o了!

GPT-4o刷新SOTA，擊敗「開(kāi)源GPT-4」還免費(fèi)用

GPT-4o的具體性能表現(xiàn)如何？

接下來(lái)的圖表可以看到，OpenAI對(duì)此前所有堪稱(chēng)超越GPT-4版本的模型，做出了統(tǒng)一回應(yīng)：

在傳統(tǒng)基準(zhǔn)測(cè)試中，GPT-4o在文本、推理和編碼智能方面，達(dá)到了GPT-4 Turbo級(jí)別的性能，同時(shí)在多語(yǔ)言、音頻和視覺(jué)能力方面創(chuàng)下了新高。

如下是，在文本評(píng)估中，GPT-4o幾乎碾壓一眾模型，包括Claude 3 Opus，Gemini Pro 1.5，甚至是「開(kāi)源版GPT-4」Llama 3 400B。

GPT-4o在零樣本的COT MMLU（常識(shí)問(wèn)題）上創(chuàng)造了88.7%的新高分。

與傳統(tǒng)的5個(gè)樣本，沒(méi)有使用COT的MMLU評(píng)測(cè)中，GPT-4o更是創(chuàng)下了87.2%的新高分!

不過(guò)在DROP中，GPT-4o的表現(xiàn)稍落后于GPT-4 Turbo。

在音頻ASR表現(xiàn)上，比起Whisper-v3 ，GPT-4o顯著提高了所有語(yǔ)言的語(yǔ)音識(shí)別性能，尤其是對(duì)資源較少的語(yǔ)言。

再來(lái)看音頻翻譯能力，GPT-4o刷新SOTA，并在MLS基準(zhǔn)上超過(guò)了Whisper-v3.

另外，OpenAI團(tuán)隊(duì)還對(duì)最新模型GPT-4o在M3Exam基準(zhǔn)上進(jìn)行了測(cè)試。

這是一種多語(yǔ)言和視覺(jué)評(píng)估基準(zhǔn)，由來(lái)自其他國(guó)家標(biāo)準(zhǔn)化測(cè)試的多項(xiàng)選擇題組成，有時(shí)還包括數(shù)字和圖表。

結(jié)果如下表所示，在所有語(yǔ)言的測(cè)試中，GPT-4o都比GPT-4強(qiáng)。

最后，在視覺(jué)理解基準(zhǔn)EVALS評(píng)估上，GPT-4o也取得了領(lǐng)先的性能。同樣，擊敗了自家的GPT-4 Turbo、Gemini 1.0 Ultra、Gemini 1.5 Pro，以及老對(duì)手Claude 3 Opus。

ChatGPT免費(fèi)用戶(hù)，可以訪(fǎng)問(wèn)的功能

OpenAI官博還介紹了，ChatGPT免費(fèi)用戶(hù)可以訪(fǎng)問(wèn)新模型加持下的功能，包括：

體驗(yàn)GPT-4級(jí)別的智能
從聯(lián)網(wǎng)后的模型得到響應(yīng)
分析數(shù)據(jù)并創(chuàng)建圖表
暢聊你拍的照片
上傳文件以幫助總結(jié)、撰寫(xiě)或分析
發(fā)現(xiàn)和使用GPTs和GPT Store
用記憶構(gòu)建更有用的體驗(yàn)

比如，你拍一張照片發(fā)給ChatGPT，然后問(wèn)「這個(gè)食物的營(yíng)養(yǎng)價(jià)值是什么」?

ChatGPT瞬間做出響應(yīng)，解釋了牛角包的營(yíng)養(yǎng)價(jià)值。

免費(fèi)用戶(hù)還可以體驗(yàn)到實(shí)時(shí)聯(lián)網(wǎng)搜索的快樂(lè)，比如「幫我推薦達(dá)拉斯5個(gè)適合夜晚約會(huì)的餐廳」。

ChatGPT通過(guò)搜索3個(gè)網(wǎng)站，立即總結(jié)出了你想要的結(jié)果。

另外，免費(fèi)福利還包括，在GPT商店中使用模型。

API速度飆升2倍，API定價(jià)再打五折

此外，讓開(kāi)發(fā)者興奮的是，GPT-4o不僅應(yīng)用在ChatGPT服務(wù)中，模型的API也被同步放出，可以部署各種下游應(yīng)用程序上。

同時(shí)，API的性能也有所改進(jìn)，據(jù)說(shuō)相比GPT-4 Turbo，推理速度提升2倍，消息限制提高五倍，而且價(jià)格還會(huì)降低50%。

OpenAI開(kāi)發(fā)者在線(xiàn)呼吁，趕快來(lái)體驗(yàn)。

ChatGPT桌面版也來(lái)了

正如Murati一出場(chǎng)開(kāi)宗明義的：對(duì)OpenAI來(lái)說(shuō)，打造一款真正讓所有人可用的產(chǎn)品，非常之重要。為了讓每個(gè)人無(wú)論身在何處，都能隨時(shí)用上ChatGPT，OpenAI發(fā)布了ChatGPT的桌面版本。它擁有桌面應(yīng)用程序，和全新的用戶(hù)界面，可以很輕易地和我們的工作流融為一體。