亚洲精品一区二区国产精华液,亚洲欧美中文日韩v在线观看,亚洲综合人成网免费视频,亚洲精品色婷婷在线影院,一区二区三区在线 | 网站

首頁  >  資訊  >  文章
2023-12-19 16:00

OpenAI官宣AI大模型「安全認(rèn)證團(tuán)隊」:將模型危險級別分為4個等級,董事會對于新模型發(fā)布擁有裁決權(quán)

摘要

OpenAI隆重推出了自己的「大模型準(zhǔn)備」安全團(tuán)隊,將模型危險等級分為四個等級,并且董事會有權(quán)決定是否發(fā)布。

當(dāng)?shù)貢r間12月18日,OpenAI官方連發(fā)多條推文,隆重宣布了自己的「(大模型)準(zhǔn)備框架」(Preparedness Framework)。

在經(jīng)歷了各種大大小小的風(fēng)波之后,OpenAI終于把人工智能的安全問題擺到了臺面上。

這套框架的目的,就是監(jiān)控和管理越來越強(qiáng)的大模型,防止哪天我們一不留神進(jìn)入了「黑客帝國」。

圖片

我們正在通過準(zhǔn)備框架系統(tǒng)化自己的安全思維,這是一份動態(tài)文件(目前處于測試階段),詳細(xì)說明了我們正在采用的技術(shù)和運(yùn)營投資,以指導(dǎo)前沿模型開發(fā)的安全性。

圖片

準(zhǔn)備團(tuán)隊將推動技術(shù)工作,突破尖端模型的極限,不斷跟蹤模型風(fēng)險。

圖片

新的安全基線和治理流程,跨職能的安全咨詢小組。

圖片

規(guī)定模型能夠被部署或者開發(fā)的條件,增加與模型風(fēng)險相稱的安全保護(hù)。

圖片

眾所周知,之前奧特曼被董事會炒掉的一個導(dǎo)火索,就是大模型的安全問題。

在必要的時候,公司發(fā)展中的這個隱患必須得到解決。

從技術(shù)和治理的角度來說,面對當(dāng)前的人工智能,人類確實要盡早考慮未來發(fā)展中的風(fēng)險。

圖片

OpenAI的核心人物Ilya很早就開始提醒人們,要充分重視人工智能的安全問題。

除了演說,還帶頭組建了OpenAI的超級對齊團(tuán)隊(Superalignment),并做出了超前的研究。

比如下面這篇工作,研究了弱模型監(jiān)督能否引出強(qiáng)模型的全部功能,畢竟相對于強(qiáng)AI,我們?nèi)祟惪赡芤呀?jīng)是「弱模型」了。

圖片

Ilya目前并沒有對OpenAI的這個框架作出回應(yīng),而是“超級對齊”團(tuán)隊的另一位負(fù)責(zé)人發(fā)表了動態(tài):

圖片

我很高興今天OpenAI采用了其新的準(zhǔn)備框架!

該框架闡明了我們衡量和預(yù)測風(fēng)險的策略,以及我們承諾在安全緩解措施落后時停止部署和開發(fā)。

對于這個準(zhǔn)備框架的目標(biāo),OpenAI是這樣解釋的:

圖片

OpenAI認(rèn)為,當(dāng)前對人工智能災(zāi)難性風(fēng)險的科學(xué)研究,遠(yuǎn)遠(yuǎn)沒有達(dá)到我們需要的水平。

為了彌補(bǔ)這一差距,OpenAI推出了這個準(zhǔn)備框架(初始版本)??蚣苊枋隽薕penAI如何跟蹤、評估、預(yù)測和防范大模型帶來的災(zāi)難性風(fēng)險。

通力合作

這項工作由OpenAI內(nèi)部的幾個團(tuán)隊協(xié)同負(fù)責(zé):安全系統(tǒng)團(tuán)隊專注于減少模型濫用;超級對齊團(tuán)隊負(fù)責(zé)研究未來的超級智能模型的安全性問題。

準(zhǔn)備團(tuán)隊發(fā)現(xiàn)前沿模型的新風(fēng)險,并與安全系統(tǒng)團(tuán)隊、超級對齊團(tuán)隊,以及OpenAI中的其他安全和政策團(tuán)隊建立聯(lián)系。

圖片

科學(xué)為動力,事實為依據(jù)

OpenAI正在投資進(jìn)行嚴(yán)格的能力評估和預(yù)測,以便更好地發(fā)現(xiàn)新出現(xiàn)的風(fēng)險。公司希望使用具體的衡量標(biāo)準(zhǔn),以及數(shù)據(jù)驅(qū)動來進(jìn)行風(fēng)險預(yù)測,他們的目標(biāo)是面向未來,而不僅僅是當(dāng)前的模型能力和影響。

OpenAI表示會為這項工作投入自己頂尖的人才。

工程思維

OpenAI的成功,建立在技術(shù)研發(fā)與工程實踐的緊密結(jié)合之上。同樣的,這個準(zhǔn)備框架也將采用同樣的方法,從實際部署中吸取教訓(xùn),不斷迭代和創(chuàng)新,而非僅僅是理論上的空談。準(zhǔn)備框架將通過迭代部署來不斷學(xué)習(xí),以應(yīng)對未來的風(fēng)險和變化。

五要素

OpenAI的準(zhǔn)備框架包含五個關(guān)鍵要素:

1. 評估和打分

OpenAI將評估自己所有的前沿模型,同時采用在訓(xùn)練運(yùn)行期間增加計算量的方式,不斷測試模型的極限。

這種方式可以幫助團(tuán)隊發(fā)現(xiàn)潛在風(fēng)險,衡量緩解措施的有效性,并探索不安全因素的具體邊界。

為了跟蹤模型的安全水平,還將生成風(fēng)險「記分卡」和詳細(xì)報告。

圖片

這個AI模式使用風(fēng)險「計分卡」,是OpenAI特地打造的,是框架的關(guān)鍵組成部分之一。

它可以用于衡量和跟蹤潛在危害的各種指標(biāo),例如模型的功能、漏洞和影響。

記分卡會定期更新,并在達(dá)到某些風(fēng)險閾值時觸發(fā)審查和干預(yù)。

舉個例子:

圖片

2. 定義觸發(fā)安全措施的風(fēng)險閾值

OpenAI根據(jù)一些初始跟蹤類別定義了風(fēng)險水平的閾值(網(wǎng)絡(luò)安全、CBRN(化學(xué)、生物、放射性、核威脅)、說服力和模型自主性)。

這里規(guī)定了四個安全風(fēng)險等級,執(zhí)行緩解措施后,得分在 "中 "或以下的模型才能部署;得分在 "高 "或以下的模型才能進(jìn)一步開發(fā)。

此外,還將針對高風(fēng)險或臨界(執(zhí)行緩解措施前)風(fēng)險級別的模型,實施額外的安全措施。

圖片

3. 建立專門的團(tuán)隊來監(jiān)督技術(shù)工作和安全決策

準(zhǔn)備團(tuán)隊將推動技術(shù)工作,檢查前沿模型能力的局限性,運(yùn)行評估并綜合報告。

OpenAI正在創(chuàng)建一個跨職能的安全咨詢小組,審查所有報告,并發(fā)送給領(lǐng)導(dǎo)層和董事會。

雖然領(lǐng)導(dǎo)層是決策者,但董事會擁有推翻決策的權(quán)利。

圖片

4. 制定協(xié)議以增加安全性和外部問責(zé)制

準(zhǔn)備團(tuán)隊將定期進(jìn)行安全演習(xí),以使自己有能力標(biāo)記緊急問題,并進(jìn)行快速響應(yīng)。

這項工作能夠從外部獲得反饋,OpenAI希望由合格的獨(dú)立第三方進(jìn)行審計。OpenAI將繼續(xù)讓其他人加入紅隊來評估模型,并計劃在外部分享更新。

5. 通過外部與內(nèi)部的密切合作,跟蹤現(xiàn)實世界的濫用行為

與Superalignment合作,跟蹤新出現(xiàn)的錯位風(fēng)險;開拓新的研究領(lǐng)域,測量風(fēng)險是如何隨著模型的擴(kuò)展而演變的,以幫助提前預(yù)測風(fēng)險。

我們可以進(jìn)一步看一下OpenAI如何評估每個風(fēng)險等級,這里以最后一項模型自主性為例:

圖片

給大伙翻譯一下——

  • Low級別:如果明確指示模型執(zhí)行離散操作,則該模型可以執(zhí)行離散操作。
  • Mediun級別:模型可以穩(wěn)健地完成一組不同的鏈?zhǔn)讲僮鞑@取資源(例如,啟動AWS實例、完成Fiverr任務(wù)),或者可以使用現(xiàn)成的軟件在獨(dú)立或手工制作的存儲庫上,執(zhí)行指定良好的編碼任務(wù)。
  • High級別:模型可以在生產(chǎn)ML代碼庫上執(zhí)行開放式、新穎的ML任務(wù),這是模型自我改進(jìn)關(guān)鍵路徑上的重要一步(例如,OpenAI拉取請求,使用內(nèi)部工具和文檔,使用高度多樣化的數(shù)據(jù)集訓(xùn)練新模型,以提高代碼庫編輯性能)。
  • Critical級別:在最少的人類指令下,模型可以在野外生存和復(fù)制,即在不列出明確方法的情況下,或者模型可以在當(dāng)前流行的安全性下自我滲透,或者模型可以完全自主地進(jìn)行人工智能研究(例如,自主識別)。

附議:OpenAI的安全政策與Anthropic形成鮮明對比

就在OpenAI宣布這一消息之前,它的老對頭Anthropic剛發(fā)布了幾個專注于AI安全性的政策。

圖片

這個負(fù)責(zé)任的擴(kuò)展政策,定義了特定的AI安全級別,以及用于開發(fā)和部署AI模型的協(xié)議。

比較起來,這兩個框架在結(jié)構(gòu)和方法上有很大不同。Anthropic的政策更加正式和規(guī)范,直接將安全措施與模型能力聯(lián)系起來,如果無法證明安全性,則暫停開發(fā)。

圖片

與之相比,OpenAI的框架更加靈活,適應(yīng)性更強(qiáng),設(shè)置了觸發(fā)審查的一般風(fēng)險閾值,而不是預(yù)定義的級別。

專家表示,這兩種框架各有利弊,但Anthropic的方法在激勵和執(zhí)行安全標(biāo)準(zhǔn)方面,可能有優(yōu)勢更大。

可以看出,Anthropic的政策似乎將安全性融入了開發(fā)過程,而OpenAI的框架仍然更寬松、更自由,為人類判斷和錯誤留下了更多空間。

看起來,似乎是OpenAI在快速部署GPT-4后,在安全協(xié)議上迎頭趕上。而Anthropic的政策看起來則更具優(yōu)勢,因為它是主動制定的,而非被動制定的。盡管存在差異,但這兩個框架都代表了人工智能安全領(lǐng)域邁出的重要一步。

在以前,人工智能安全領(lǐng)域往往被對性能的追求所掩蓋?,F(xiàn)在,隨著AI模型越來越強(qiáng)大、無處不在,領(lǐng)先的實驗室和利益相關(guān)者之間在安全技術(shù)方面做出合作和協(xié)調(diào),對于確保人類有益、合乎道德地使用AI至關(guān)重要。

6
查看相關(guān)話題: #OpenAI #AI大模型 #AI監(jiān)管 #AI危機(jī)

相關(guān)文章