AI巨頭們給白宮交卷:Google、OpenAI、牛津等12家頂尖機構聯合發布「模型安全性評估框架」
5月初,白宮與Google、微軟、OpenAI、Anthropic等AI公司的CEO們開了個會,針對AI生成技術的爆發,討論科技背後隱藏的風險、如何負責任地開發人工智慧系統,以及製定有效的監管措施。
現有的安全評估過程通常依賴一系列評估基準(evaluation benchmarks)來識別AI系統的異常行為,例如誤導性陳述、有偏見的決策或輸出受版權保護的內容。
而隨著AI技術的日益強大,相應的模型評估工具也必須升級,防止開發具有操縱、欺騙或其他高危險能力的AI系統。
最近,Google DeepMind、劍橋大學、牛津大學、多倫多大學、蒙特利爾大學、OpenAI、Anthropic等多所頂尖高校和研究機構聯合發布了一個用於評估模型安全性的框架,有望成為未來人工智慧模型開發和部署的關鍵組件。
論文連結:https://arxiv.org/pdf/2305.15324.pdf
通用AI系統的開發人員必須評估模型的危險能力和對齊性,並儘早識別出極端風險,從而讓訓練、部署、風險描述等過程更負責任。
評估結果可以讓決策者和其他利害關係人了解詳情,以及對模型訓練、部署和安全性地做出負責任的決定。
AI有風險,訓練需謹慎
通用模型通常需要「訓練」來學習特定的能力和行為,不過現有的學習過程通常是不完善的,例如先前的研究中,DeepMind的研究人員發現,即使在訓練期間已經正確獎勵模型的預期行為,人工智慧系統還是會學到一些非預期目標。
論文連結:https://arxiv.org/abs/2210.01790
#負責任的人工智慧開發人員必須能夠提前預測未來可能的開發和未知風險,並且隨著AI系統的進步,未來通用模型可能會默認學習各種危險的能力。
例如人工智慧系統可能會進行打擊性的網路行動,在對話中巧妙地欺騙人類,操縱人類進行有害的行動、設計或獲得武器等,在雲端運算平台上微調和操作其他高風險AI系統,或協助人類完成這些危險的任務。
惡意存取此類模型的人可能會濫用AI的能力,或者由於對齊失敗,人工智慧模型可能會在沒有人引導的情況下,自行選擇採取有害的行動。
模型評估有助於提前識別這些風險,遵循文中提出的框架,AI開發人員可以使用模型評估來發現:
1. 模型在多大程度上具有某些「危險能力」,可用於威脅安全、施加影響或逃避監管;
2. 模型在多大程度上傾向於應用其能力造成傷害(即模型的對齊)。校準評估應該在非常廣泛的場景設定下,確認模型的行為是否符合預期,並且在可能的情況下,檢查模型的內部工作。
風險最高的情境通常涉及多種危險能力的組合,評估的結果有助於AI開發人員了解是否存在足以導致極端風險的成分:
特定的能力可以外包給人類(如使用者或群眾外包工作者)或其他AI系統,該功能必須用於解決因誤用或對齊失敗造成的傷害。
從經驗上來看,如果一個人工智慧系統的能力配置足以造成極端風險,並且假設該系統可能會被濫用或沒有有效調整,那麼人工智慧社區應該將其視為高度危險的系統。
要在真實的世界中部署這樣的系統,開發人員需要設定一個遠超常值的安全標準。
模型評估是AI治理的基礎
如果我們有更好的工具來識別哪些模型有風險,公司和監管機構就可以更好地確保:
1. 負責任的訓練:是否以及如何訓練一個顯示出早期風險跡象的新模型。
2. 負責任的部署:是否、何時、如何部署具有潛在風險的模型。
3. 透明度:向利害關係人報告有用且可操作的信息,為潛在風險做好準備或減輕風險。
4. 適當的安全性:強大的資訊安全控制和系統應用於可能帶來極端風險的模型。
文中已經制定了一個藍圖,說明如何將極端風險的模型評估納入有關訓練和部署高能力通用模型的重要決策中。
開發人員需要在整個過程中進行評估,並向外部安全研究人員和模型審計員(model auditors)賦予結構化模型存取權限,以便進行深度評估。
評估結果可以在模型訓練和部署之前為風險評估提供資訊。
為極端風險建構評估
DeepMind正在開發一個「評估語言模型操縱能力」的項目,其中有一個“讓我說」(Make me say)的遊戲,語言模型必須引導一個人類對話者說出一個預先指定的字。
下面這個表格列出了一些模型應該要有的理想屬性。
研究人員認為,建立一個全面的對齊(alignment)評估是很困難的,所以現階段的目標是建立一個對齊的過程,以較高的置信度評估模型是否有風險。
對齊評估非常具有挑戰性,因為需要保證模型在各種不同的環境中都能可靠地表現出適當的行為,所以需要在廣泛的測試環境中對模型進行評估,實現更高的環境覆蓋度。具體包括:
1. 廣度(Breadth):在盡可能多的環境中評估模型行為,一個有前景的方法是使用人工智慧系統自動編寫評估。
2. 目標(Targeting):有些環境比其他環境更有可能對齊失敗,也許能夠透過巧妙的設計來實現,例如使用蜜罐或基於梯度的對抗性測試等。
3. 理解泛化(Understanding generalisation):由於研究人員無法預見或模擬所有可能的情況,因此必須對模型行為如何以及為何在不同的環境中泛化(或無法泛化)形成更好的科學理解。
另一個重要的工具是機制(mechnaistic)分析,即研究模型的權重和激活,以了解其功能。
模型評估的未來
模型評估並不是萬能的,因為整個過程非常依賴模型開發之外的影響因素,例如複雜的社會、政治和經濟力量,所有可能會漏篩一些風險。
模型評估必須與其他風險評估工具結合,並在整個產業、政府和民間社會更廣泛地推廣安全意識。
Google最近在「負責任的AI」部落格上也指出,個人實踐、共享的行業標準和健全的政策對於規範開發人工智慧至關重要。
研究人員認為,追蹤模型中風險湧現的過程,以及對相關結果做出充分回應的流程,是在人工智慧能力前沿運作的負責任開發人員的關鍵部分。
以上是AI巨頭們給白宮交卷:Google、OpenAI、牛津等12家頂尖機構聯合發布「模型安全性評估框架」的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

全球十大加密貨幣交易平台包括Binance、OKX、Gate.io、Coinbase、Kraken、Huobi Global、Bitfinex、Bittrex、KuCoin和Poloniex,均提供多種交易方式和強大的安全措施。

MeMebox 2.0通過創新架構和性能突破重新定義了加密資產管理。 1) 它解決了資產孤島、收益衰減和安全與便利悖論三大痛點。 2) 通過智能資產樞紐、動態風險管理和收益增強引擎,提升了跨鏈轉賬速度、平均收益率和安全事件響應速度。 3) 為用戶提供資產可視化、策略自動化和治理一體化,實現了用戶價值重構。 4) 通過生態協同和合規化創新,增強了平台的整體效能。 5) 未來將推出智能合約保險池、預測市場集成和AI驅動資產配置,繼續引領行業發展。

Binance、OKX、gate.io等十大數字貨幣交易所完善系統、高效多元化交易和嚴密安全措施嚴重推崇。

靠谱的数字货币交易平台推荐:1. OKX,2. Binance,3. Coinbase,4. Kraken,5. Huobi,6. KuCoin,7. Bitfinex,8. Gemini,9. Bitstamp,10. Poloniex,这些平台均以其安全性、用户体验和多样化的功能著称,适合不同层次的用户进行数字货币交易

比特幣的價格在20,000到30,000美元之間。 1. 比特幣自2009年以來價格波動劇烈,2017年達到近20,000美元,2021年達到近60,000美元。 2. 價格受市場需求、供應量、宏觀經濟環境等因素影響。 3. 通過交易所、移動應用和網站可獲取實時價格。 4. 比特幣價格波動性大,受市場情緒和外部因素驅動。 5. 與傳統金融市場有一定關係,受全球股市、美元強弱等影響。 6. 長期趨勢看漲,但需謹慎評估風險。

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔,讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分,它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說,chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性,還提供了更高的精度和靈活性。讓我們從基礎開始,chrono庫主要包括以下幾個關鍵組件:std::chrono::system_clock:表示系統時鐘,用於獲取當前時間。 std::chron

2025年全球十大加密貨幣交易所包括Binance、OKX、Gate.io、Coinbase、Kraken、Huobi、Bitfinex、KuCoin、Bittrex和Poloniex,均以高交易量和安全性著稱。
