亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

首頁  >  資訊  >  文章
2024-12-23 10:05

OpenAI正式發(fā)布新一代模型o3丨GPT-5「難產(chǎn)」,訓(xùn)練成果不及預(yù)期丨支付寶上線AI內(nèi)容創(chuàng)意生成平臺(tái)“螞上有創(chuàng)意”

AI奇點(diǎn)網(wǎng)2024年12月23日?qǐng)?bào)道丨AI資訊早報(bào)

超越OpenAI的只有自己,OpenAI正式發(fā)布新一代模型o3

當(dāng)?shù)貢r(shí)間12月20日,OpenAI 結(jié)束了連續(xù) 12 個(gè)工作日的“超長(zhǎng)”新品發(fā)布會(huì),在收官發(fā)布活動(dòng)上重磅推出 o3 系列模型。

此次發(fā)布的的 o3 系列模型是 o1 的迭代版本,不知道是為了避免與英國(guó)電信運(yùn)營(yíng)商 O2 出現(xiàn)商標(biāo)糾紛,還是迭代進(jìn)步太大,總之 OpenAI 決定跳過「o2」命名,直接采用「o3」。

OpenAI o3 系列包含兩款大模型:

  • OpenAI o3 標(biāo)準(zhǔn)版:旗艦版本,具備強(qiáng)大的性能表現(xiàn)
  • OpenAI o3 mini:輕量級(jí)模型,但能更快,更便宜,主打性價(jià)比

據(jù)官方介紹,o3 在多領(lǐng)域迎來全面提升:

在 SweepBench Verified 基準(zhǔn)測(cè)試中,o3 達(dá)到了約 71.7% 的準(zhǔn)確率,直接將 o1 模型甩在身后整整 20% 之多。

AI 編碼領(lǐng)域,o1 在編程競(jìng)賽平臺(tái) Codeforces 上的得分為 1.891,而 o3 在開足馬力延長(zhǎng)思考時(shí)間的情況下,得分可達(dá) 2.727。

在美國(guó)數(shù)學(xué)競(jìng)賽 AIME 2024 測(cè)試中,o3 以 90.67% 的準(zhǔn)確率完全碾壓了 o1 的 83.3%。

遇上衡量博士級(jí)科學(xué)問題解答能力的 GPQA Diamond 測(cè)試,o3 取得了 87.7% 的成績(jī),而 o1 僅為 78%。

OpenAI 還引入了一個(gè)全新的數(shù)學(xué)測(cè)試基準(zhǔn)題庫 EpochAI Frontier Math。目前,所有現(xiàn)有模型在該測(cè)試上的準(zhǔn)確率都不足 2%,而在高算力的長(zhǎng)時(shí)間測(cè)試下,o3 卻能取得超過 2.457 的分?jǐn)?shù)。

評(píng)估 AI 系統(tǒng)推理能力的基準(zhǔn) ARC-AGI 方面,o3 在低算力的配置下得分為 75.7 分。當(dāng)要求 o3 思考更長(zhǎng)時(shí)間,并且提高算力,o3 在相同的隱藏保留集上得分 87.5%,遠(yuǎn)超大多數(shù)的真人能力。

另外,占用資源更少的版本 o1 mini 的延續(xù)之作 o3 mini 也一同亮相。保留了 o1 mini 「具有很強(qiáng)的數(shù)學(xué)和編程能力,而且成本極低」的特征。

據(jù)官方介紹,o3 mini 支持低、中、高三種推理時(shí)間模式,用戶可根據(jù)任務(wù)復(fù)雜度靈活調(diào)整模型的思考時(shí)間。從首批評(píng)估結(jié)果來看,在衡量編程能力的 Codeforces Elo 評(píng)分中,隨著推理時(shí)間的增加,其 Elo 分?jǐn)?shù)持續(xù)攀升,在中等推理時(shí)間下就已超越 o1 mini。

GPT-5「難產(chǎn)」,訓(xùn)練成果不及預(yù)期

近日,據(jù)華爾街日?qǐng)?bào)報(bào)道,OpenAI 的 GPT-5 進(jìn)度出現(xiàn)落后,并且將不能按時(shí)發(fā)布。

和此前爆料一致,代號(hào)為獵戶座(Orion)的 GPT-5 開發(fā)周期已經(jīng)超過 18 個(gè)月。OpenAI 「金主」微軟本來預(yù)計(jì)它能在 2024 年中發(fā)布,但結(jié)果顯而易見,GPT-5 已經(jīng)「難產(chǎn)」。

據(jù)悉,OpenAI 給 GPT-5 設(shè)定的目標(biāo)不低,Orion 至少試了兩輪大規(guī)模訓(xùn)練,但效果都未達(dá)預(yù)期,成品只是比現(xiàn)在的產(chǎn)品是強(qiáng)了點(diǎn),但投入產(chǎn)出比極低,據(jù)估計(jì),六個(gè)月的訓(xùn)練運(yùn)行就要燒掉大約 5 億美元。

2023 年年中,OpenAI 啟動(dòng)了代號(hào)為「Arrakis」的測(cè)試項(xiàng)目,旨在驗(yàn)證 Orion 新設(shè)計(jì)的有效性和可行性,測(cè)試過程成本過高。2024 年初,OpenAI 決定開始新一輪嘗試。5 月,研究團(tuán)隊(duì)認(rèn)為時(shí)機(jī)成熟,啟動(dòng)了一項(xiàng)預(yù)計(jì)持續(xù)到 11 月的大規(guī)模訓(xùn)練。但訓(xùn)練中出現(xiàn)數(shù)據(jù)多樣性不足的問題。

此后,OpenAI 另辟蹊徑,專門招聘軟件工程師和數(shù)學(xué)家寫代碼、解數(shù)學(xué)題來為 Orion 提供學(xué)習(xí)材料,并詳細(xì)記錄解決問題的思維過程。同時(shí)尋求專家合作以及用推理模型 o1 生成合成數(shù)據(jù),并結(jié)合傳統(tǒng)數(shù)據(jù)來不斷改進(jìn)模型生成結(jié)果。

目前,迫于研發(fā)進(jìn)度的延緩,OpenAI 開始將注意力轉(zhuǎn)向其他項(xiàng)目,包括開發(fā) GPT-4 的各種版本和 Sora 等。知情人士透露,這也導(dǎo)致開發(fā)新產(chǎn)品的團(tuán)隊(duì)和 Orion 研究人員之間為爭(zhēng)奪有限的計(jì)算資源打得不可開交。

「Apple智能」AI總結(jié)新聞總出錯(cuò)

近日,多家權(quán)威的國(guó)際媒體報(bào)道稱,蘋果所推出的 Apple Intelligence 頻繁出錯(cuò),甚至以誤導(dǎo)用戶的方式推送虛假信息。

12 月 19 日 BBC 報(bào)道稱,蘋果 Apple Intelligence 的 AI 通知總結(jié)功能,在推送本月初的美國(guó)聯(lián)合健康保險(xiǎn)公司 CEO 布萊恩·湯普森于紐約街頭遭槍殺一事,竟然將新聞提取總結(jié)成「槍手本人對(duì)自己開槍」,并且加上了「BBC新聞客戶端」來源的形式向蘋果用戶進(jìn)行推送。BBC 方面表示非常不能接受,用戶在查看 Apple Intelligence 在推送錯(cuò)誤消息時(shí)會(huì)誤認(rèn)為 BBC 發(fā)布。

除此之外,11 月 21 日,Apple Intelligence 還試圖將紐約時(shí)報(bào)的三篇文章整合在一起,總結(jié)出了「以色列總理內(nèi)塔尼亞胡被逮捕」的信息,并以「紐約時(shí)報(bào)客戶端」形式推送給用戶。而這篇推送其實(shí)是根據(jù)「國(guó)際刑事法院對(duì)內(nèi)塔尼亞胡發(fā)出逮捕令」的報(bào)道生成。

支付寶發(fā)布AI內(nèi)容創(chuàng)意生成平臺(tái):螞上有創(chuàng)意

近日,支付寶推出 AI 創(chuàng)意生成平臺(tái)「螞上有創(chuàng)意」,將面向商家機(jī)構(gòu)提供 AI 快速生成創(chuàng)意素材、營(yíng)銷廣告智能分析等營(yíng)銷服務(wù)。

據(jù)官方介紹,在 AI 技術(shù)的加持下,「螞上有創(chuàng)意」支持用口語描述就能快速生成海報(bào)、Banner、視頻等內(nèi)容,也支持 AI 圖片優(yōu)化、線稿上色、藝術(shù)字生成等功能,平臺(tái)還將提供 AI 創(chuàng)意洞察的智能服務(wù)。商家上傳營(yíng)銷物料后,支付寶的創(chuàng)意診斷模型便會(huì)對(duì)物料進(jìn)行分析評(píng)估并給出優(yōu)化建議,幫助商家提高投放轉(zhuǎn)化率。

據(jù)悉,過去一年支付寶將 AI 全面應(yīng)用于商業(yè)開放生態(tài),共接入近 70 個(gè)業(yè)務(wù)場(chǎng)景,累計(jì)為生態(tài)商家機(jī)構(gòu)生成 8700 萬張 AI 素材。此次推出的「螞上有創(chuàng)意」,則面向所有商家機(jī)構(gòu)及設(shè)計(jì)師群體開放,聚焦于用 AI 讓商業(yè)營(yíng)銷更簡(jiǎn)單。

體驗(yàn)地址:https://idesign.alipay.com/home

階躍星辰完成數(shù)億美元B輪融資

12月23日投資圈放出消息,國(guó)產(chǎn) AI 大模型獨(dú)角獸企業(yè)階躍星辰已于近日完成B輪融資,總?cè)谫Y金額達(dá)數(shù)億美元。

此次融資有國(guó)資、戰(zhàn)略和財(cái)務(wù)投資人等多家參與,核心投資方包括上海國(guó)有資本投資有限公司及其旗下基金,戰(zhàn)略和財(cái)務(wù)投資人包括騰訊投資、五源資本、啟明創(chuàng)投等。

據(jù)了解,這筆融資將用于繼續(xù)投入基礎(chǔ)模型研發(fā),強(qiáng)化多模態(tài)和復(fù)雜推理能力,并通過產(chǎn)品和生態(tài)加大覆蓋C端應(yīng)用場(chǎng)景,提供豐富的用戶體驗(yàn)。

在11月19日發(fā)布的LiveBench測(cè)評(píng)榜單中,階躍星辰自研的萬億參數(shù)語言大模型Step-2位列國(guó)產(chǎn)基座大模型的第一名,僅次于OpenAI o1和Claude 3.5;11月22日發(fā)布于的大模型競(jìng)技場(chǎng)LMSYS Chatbot Arena榜單顯示,階躍星?的多模態(tài)理解?模型Step-1V位列視覺領(lǐng)域中國(guó)大模型第一。

2024年下半年,階躍星?多模態(tài)大模型 API 調(diào)用量環(huán)比提高了 47 倍。自研產(chǎn)品的布局上,階躍星辰已推出智能助手“躍問”,以及基于自研視覺理解模型的多模態(tài)智能視覺搜索功能“拍照問”,成為國(guó)內(nèi)首個(gè)支持集成在 iPhone 16 系列手機(jī)的相機(jī)控制鍵中的大模型應(yīng)用功能。

除此之外,階躍星辰還與上海報(bào)業(yè)旗下界?、財(cái)聯(lián)社聯(lián)合創(chuàng)辦?模型科技公司“財(cái)躍星?”,發(fā)布了?融行業(yè)垂直大模型 Finstep 和私?財(cái)富助理APP “?財(cái)神”;在智能終端領(lǐng)域,成為榮耀手機(jī)和OPPO手機(jī)等頭部手機(jī)廠商的大模型技術(shù)合作方。

1

相關(guān)文章