OpenAI隆重推出了自己的「大模型準(zhǔn)備」安全團(tuán)隊,將模型危險等級分為四個等級,并且董事會有權(quán)決定是否發(fā)布。
OpenAI官宣AI大模型「安全認(rèn)證團(tuán)隊」:將模型危險級別分為4個等級,董事會對于新模型發(fā)布擁有裁決權(quán)
摘要
OpenAI隆重推出了自己的「大模型準(zhǔn)備」安全團(tuán)隊,將模型危險等級分為四個等級,并且董事會有權(quán)決定是否發(fā)布。
當(dāng)?shù)貢r間12月18日,OpenAI官方連發(fā)多條推文,隆重宣布了自己的「(大模型)準(zhǔn)備框架」(Preparedness Framework)。
在經(jīng)歷了各種大大小小的風(fēng)波之后,OpenAI終于把人工智能的安全問題擺到了臺面上。
這套框架的目的,就是監(jiān)控和管理越來越強(qiáng)的大模型,防止哪天我們一不留神進(jìn)入了「黑客帝國」。
我們正在通過準(zhǔn)備框架系統(tǒng)化自己的安全思維,這是一份動態(tài)文件(目前處于測試階段),詳細(xì)說明了我們正在采用的技術(shù)和運(yùn)營投資,以指導(dǎo)前沿模型開發(fā)的安全性。
準(zhǔn)備團(tuán)隊將推動技術(shù)工作,突破尖端模型的極限,不斷跟蹤模型風(fēng)險。
新的安全基線和治理流程,跨職能的安全咨詢小組。
規(guī)定模型能夠被部署或者開發(fā)的條件,增加與模型風(fēng)險相稱的安全保護(hù)。
眾所周知,之前奧特曼被董事會炒掉的一個導(dǎo)火索,就是大模型的安全問題。
在必要的時候,公司發(fā)展中的這個隱患必須得到解決。
從技術(shù)和治理的角度來說,面對當(dāng)前的人工智能,人類確實要盡早考慮未來發(fā)展中的風(fēng)險。
OpenAI的核心人物Ilya很早就開始提醒人們,要充分重視人工智能的安全問題。
除了演說,還帶頭組建了OpenAI的超級對齊團(tuán)隊(Superalignment),并做出了超前的研究。
比如下面這篇工作,研究了弱模型監(jiān)督能否引出強(qiáng)模型的全部功能,畢竟相對于強(qiáng)AI,我們?nèi)祟惪赡芤呀?jīng)是「弱模型」了。
Ilya目前并沒有對OpenAI的這個框架作出回應(yīng),而是“超級對齊”團(tuán)隊的另一位負(fù)責(zé)人發(fā)表了動態(tài):
我很高興今天OpenAI采用了其新的準(zhǔn)備框架!
該框架闡明了我們衡量和預(yù)測風(fēng)險的策略,以及我們承諾在安全緩解措施落后時停止部署和開發(fā)。
對于這個準(zhǔn)備框架的目標(biāo),OpenAI是這樣解釋的:
OpenAI認(rèn)為,當(dāng)前對人工智能災(zāi)難性風(fēng)險的科學(xué)研究,遠(yuǎn)遠(yuǎn)沒有達(dá)到我們需要的水平。
為了彌補(bǔ)這一差距,OpenAI推出了這個準(zhǔn)備框架(初始版本)??蚣苊枋隽薕penAI如何跟蹤、評估、預(yù)測和防范大模型帶來的災(zāi)難性風(fēng)險。
通力合作
這項工作由OpenAI內(nèi)部的幾個團(tuán)隊協(xié)同負(fù)責(zé):安全系統(tǒng)團(tuán)隊專注于減少模型濫用;超級對齊團(tuán)隊負(fù)責(zé)研究未來的超級智能模型的安全性問題。
準(zhǔn)備團(tuán)隊發(fā)現(xiàn)前沿模型的新風(fēng)險,并與安全系統(tǒng)團(tuán)隊、超級對齊團(tuán)隊,以及OpenAI中的其他安全和政策團(tuán)隊建立聯(lián)系。
科學(xué)為動力,事實為依據(jù)
OpenAI正在投資進(jìn)行嚴(yán)格的能力評估和預(yù)測,以便更好地發(fā)現(xiàn)新出現(xiàn)的風(fēng)險。公司希望使用具體的衡量標(biāo)準(zhǔn),以及數(shù)據(jù)驅(qū)動來進(jìn)行風(fēng)險預(yù)測,他們的目標(biāo)是面向未來,而不僅僅是當(dāng)前的模型能力和影響。
OpenAI表示會為這項工作投入自己頂尖的人才。
工程思維
OpenAI的成功,建立在技術(shù)研發(fā)與工程實踐的緊密結(jié)合之上。同樣的,這個準(zhǔn)備框架也將采用同樣的方法,從實際部署中吸取教訓(xùn),不斷迭代和創(chuàng)新,而非僅僅是理論上的空談。準(zhǔn)備框架將通過迭代部署來不斷學(xué)習(xí),以應(yīng)對未來的風(fēng)險和變化。
五要素
OpenAI的準(zhǔn)備框架包含五個關(guān)鍵要素:
1. 評估和打分
OpenAI將評估自己所有的前沿模型,同時采用在訓(xùn)練運(yùn)行期間增加計算量的方式,不斷測試模型的極限。
這種方式可以幫助團(tuán)隊發(fā)現(xiàn)潛在風(fēng)險,衡量緩解措施的有效性,并探索不安全因素的具體邊界。
為了跟蹤模型的安全水平,還將生成風(fēng)險「記分卡」和詳細(xì)報告。
這個AI模式使用風(fēng)險「計分卡」,是OpenAI特地打造的,是框架的關(guān)鍵組成部分之一。
它可以用于衡量和跟蹤潛在危害的各種指標(biāo),例如模型的功能、漏洞和影響。
記分卡會定期更新,并在達(dá)到某些風(fēng)險閾值時觸發(fā)審查和干預(yù)。
舉個例子:
2. 定義觸發(fā)安全措施的風(fēng)險閾值
OpenAI根據(jù)一些初始跟蹤類別定義了風(fēng)險水平的閾值(網(wǎng)絡(luò)安全、CBRN(化學(xué)、生物、放射性、核威脅)、說服力和模型自主性)。
這里規(guī)定了四個安全風(fēng)險等級,執(zhí)行緩解措施后,得分在 "中 "或以下的模型才能部署;得分在 "高 "或以下的模型才能進(jìn)一步開發(fā)。
此外,還將針對高風(fēng)險或臨界(執(zhí)行緩解措施前)風(fēng)險級別的模型,實施額外的安全措施。
3. 建立專門的團(tuán)隊來監(jiān)督技術(shù)工作和安全決策
準(zhǔn)備團(tuán)隊將推動技術(shù)工作,檢查前沿模型能力的局限性,運(yùn)行評估并綜合報告。
OpenAI正在創(chuàng)建一個跨職能的安全咨詢小組,審查所有報告,并發(fā)送給領(lǐng)導(dǎo)層和董事會。
雖然領(lǐng)導(dǎo)層是決策者,但董事會擁有推翻決策的權(quán)利。
4. 制定協(xié)議以增加安全性和外部問責(zé)制
準(zhǔn)備團(tuán)隊將定期進(jìn)行安全演習(xí),以使自己有能力標(biāo)記緊急問題,并進(jìn)行快速響應(yīng)。
這項工作能夠從外部獲得反饋,OpenAI希望由合格的獨(dú)立第三方進(jìn)行審計。OpenAI將繼續(xù)讓其他人加入紅隊來評估模型,并計劃在外部分享更新。
5. 通過外部與內(nèi)部的密切合作,跟蹤現(xiàn)實世界的濫用行為
與Superalignment合作,跟蹤新出現(xiàn)的錯位風(fēng)險;開拓新的研究領(lǐng)域,測量風(fēng)險是如何隨著模型的擴(kuò)展而演變的,以幫助提前預(yù)測風(fēng)險。
我們可以進(jìn)一步看一下OpenAI如何評估每個風(fēng)險等級,這里以最后一項模型自主性為例:
給大伙翻譯一下——
附議:OpenAI的安全政策與Anthropic形成鮮明對比
就在OpenAI宣布這一消息之前,它的老對頭Anthropic剛發(fā)布了幾個專注于AI安全性的政策。
這個負(fù)責(zé)任的擴(kuò)展政策,定義了特定的AI安全級別,以及用于開發(fā)和部署AI模型的協(xié)議。
比較起來,這兩個框架在結(jié)構(gòu)和方法上有很大不同。Anthropic的政策更加正式和規(guī)范,直接將安全措施與模型能力聯(lián)系起來,如果無法證明安全性,則暫停開發(fā)。
與之相比,OpenAI的框架更加靈活,適應(yīng)性更強(qiáng),設(shè)置了觸發(fā)審查的一般風(fēng)險閾值,而不是預(yù)定義的級別。
專家表示,這兩種框架各有利弊,但Anthropic的方法在激勵和執(zhí)行安全標(biāo)準(zhǔn)方面,可能有優(yōu)勢更大。
可以看出,Anthropic的政策似乎將安全性融入了開發(fā)過程,而OpenAI的框架仍然更寬松、更自由,為人類判斷和錯誤留下了更多空間。
看起來,似乎是OpenAI在快速部署GPT-4后,在安全協(xié)議上迎頭趕上。而Anthropic的政策看起來則更具優(yōu)勢,因為它是主動制定的,而非被動制定的。盡管存在差異,但這兩個框架都代表了人工智能安全領(lǐng)域邁出的重要一步。
在以前,人工智能安全領(lǐng)域往往被對性能的追求所掩蓋?,F(xiàn)在,隨著AI模型越來越強(qiáng)大、無處不在,領(lǐng)先的實驗室和利益相關(guān)者之間在安全技術(shù)方面做出合作和協(xié)調(diào),對于確保人類有益、合乎道德地使用AI至關(guān)重要。
近期文章
更多