GPT-4發布前，OpenAI曾僱用各行專家進行「對抗性測試」以規避歧視等問題-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

GPT-4發布前，OpenAI曾僱用各行專家進行「對抗性測試」以規避歧視等問題

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 30, 2023 pm 05:28 PM

openai gpt-4

GPT-4發布前，OpenAI曾僱用各行專家進行「對抗性測試」以規避歧視等問題

4月17日訊息，人工智慧新創公司OpenAI在發布大型語言模型GPT-4之前，僱用各行各業的專家組成「藍軍」團隊，對模型可能會出現哪些問題進行「對抗性測試」。專家提出各種探索性或危險問題，測試人工智慧如何回應；OpenAI將用這些發現重新訓練GPT-4並解決問題。

在安德魯·懷特(Andrew White)獲得權限調用人工智慧聊天機器人背後的新模型GPT-4後，他利用其提出了一種全新的神經毒劑。

身為羅徹斯特大學的化學工程教授，懷特是OpenAI去年聘請的50名學者和專家之一，他們共同組成了OpenAI的「藍軍」團隊。在六個月的時間裡，“藍軍”成員將對新模型進行“定性探測和對抗性測試”，看能否攻破GPT-4。

懷特表示，他使用GPT-4提出一種可以用作化學毒劑的化合物，還引入諸如科學論文和化學品製造商名義等能為新語言模型提供資訊來源的各種「插件」。結果人工智慧聊天機器人甚至找到了地方來製作這種化學毒劑。

懷特說：「我認為人工智慧將為每個人都帶來更快更準確開展化學實驗的工具。」「但也有人們會用人工智慧做危險化學實驗的風險…現在這種情況確實存在。」

引入「藍軍測試」的做法讓OpenAI能確保，在GPT-4發佈時不會出現這種後果。

「藍軍測試」的目的是為了打消人們認為在社會上部署強大人工智慧系統存在危險的擔憂。「藍軍」團隊的工作就是提出各種探索性或危險問題，測試人工智慧如何回應。

OpenAI想要知道新模型對不良問題會做出何種反應。因此，「藍軍」團隊測試了謊言、語言操縱和危險科學常識等問題。他們也研究了新模式在協助和教唆剽竊、金融犯罪和網路攻擊等非法活動方面的可能性。

GPT-4「藍軍」團隊來自各行各業，有學者、教師、律師、風險分析師和安全研究人員，主要工作地點在美國和歐洲。

他們將發現回饋給OpenAI, OpenAI在公開發布GPT-4之前，用團隊成員的發現結果來重新訓練GPT-4並解決問題。在幾個月的時間裡，成員們每人會花費10到40小時的時間來測試新模型。多位受訪者表示，自己的時薪約100美元。

許多「藍軍」團隊成員都擔心大型語言模型的快速發展，更擔心透過各種外掛程式與外部知識來源連結的風險。

「現在系統是被凍結了，這意味著它不再學習，也不再有記憶，」GPT-4「藍軍」成員、瓦倫西亞人工智慧研究所教授何塞·埃爾南德斯-奧拉洛（José Hernández-Orallo）說。「但如果我們用它來上網呢？這可能是一個與全世界相連的非常強大系統。」

OpenAI表示，公司非常重視安全性，在發布前會對各種插件進行測試。而且隨著越來越多的人使用GPT-4，OpenAI將定期對模型進行更新。

技術和人權研究員羅亞·帕克扎德(Roya Pakzad)使用英語和波斯語問題來測試GPT-4模型在性別、種族和宗教方面是否存在偏見。

帕克札德發現，即便更新後，即使在後來更新的版本中，GPT-4也有對邊緣化社群的明顯刻板印象。

她還發現，在用波斯語問題測試模型時，聊天機器人用編造訊息回答問題的「幻覺」現象更嚴重。與英語相比，機器人用波斯語虛構的名字、數字和事件更多。

帕克扎德說：「我擔心語言多樣性和語言背後的文化可能會衰減。」

#常駐內羅畢的律師博魯·戈洛(Boru Gollo)是唯一一位來自非洲的測試者，他也注意到新模型帶有歧視性語氣。「在我測試這個模型的時候，它就像一個白人在跟我說話，」戈洛說。「如果你問到某個特定群體，它會給你一個有偏見的觀點或非常有偏見的答案。」OpenAI也承認GPT-4仍然存在偏見。

從安全角度評估模型的「藍軍」成員則對新模型安全性有著不同的看法。來自美國外交關係委員會的研究員勞倫·卡恩(Lauren Kahn)表示，當她開始研究這種技術是否有可能被用於網路攻擊時，表示「沒想到它會如此詳細，以至於進行微調就可以實施」。然而卡恩和其他測試人員發現，隨著時間推移，新模型的回應變得相當安全。 OpenAI表示，在GPT-4發布之前，該公司對其進行了有關拒絕惡意網路安全請求的訓練。

「藍軍」的許多成員表示，OpenAI在發布前已經做了嚴格安全評估。卡內基美隆大學語言模型毒性研究專家馬丁·薩普(Maarten Sap)說：「他們在消除系統中明顯毒性方面做得相當不錯。」

自上線ChatGPT以來，OpenAI也受到多方批評，有技術道德組織向美國聯邦貿易委員會(FTC)投訴稱，GPT-4「有偏見、具有欺騙性，對隱私和公共安全構成威脅」。

最近，OpenAI也推出了名為ChatGPT插件的功能，Expedia、OpenTable和Instacart等合作夥伴應用程式可以透過這項功能讓ChatGPT存取他們的服務，允許其代表人類用戶訂購商品。

「藍軍」團隊的人工智慧安全專家丹·亨德里克斯(Dan Hendrycks)表示，這種外掛程式可能會讓人類自己變成了「局外人」。

「如果聊天機器人可以把你的私人資訊發佈到網路上，存取你的銀行帳戶，或派人到你家裡去，你會怎麼想？」亨德里克斯說。「總的來說，在我們讓人工智慧掌握網路力量之前，我們需要更強有力的安全評估。」

「藍軍」成員也警告說，OpenAI不能僅僅因為軟體即時回應就停止安全測試。在喬治城大學安全和新興技術中心工作的希瑟·弗雷斯(Heather Frase)也對GPT-4是否會協助犯罪行為進行了測試。她說，隨著越來越多的人使用這項技術，風險將繼續增加。

她說：「你做實際運行測試的原因是，一旦用到真實環境中，它們的表現就不同了。她認為，應該開發公共系統來報告大型語言模型引發的各類事件，類似於網路安全或消費者詐欺報告系統。

勞動經濟學家兼研究員莎拉·金斯利(Sara Kingsley)建議，最好的解決辦法是像食品包裝上的「營養標籤」那樣，直接說明危害和風險。

她說：「關鍵是要有一個框架，知道經常出現的問題是什麼，這樣你就可以有一個安全閥。」「這就是為什麼我說工作永遠做不完。 ”

以上是GPT-4發布前，OpenAI曾僱用各行專家進行「對抗性測試」以規避歧視等問題的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

Java教學

1653

CakePHP 教程

1413

Laravel 教程

1306

PHP教程

1251

C# 教程

1224

Related knowledge

全球最強開源 MoE 模型來了，中文能力比肩 GPT-4，價格僅 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想像一下，一個人工智慧模型，不僅擁有超越傳統運算的能力，還能以更低的成本實現更有效率的效能。這不是科幻，DeepSeek-V2[1]，全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合（MoE）語言模型，具有訓練經濟、推理高效的特點。它由236B個參數組成，其中21B個參數用於啟動每個標記。與DeepSeek67B相比，DeepSeek-V2效能更強，同時節省了42.5%的訓練成本，減少了93.3%的KV緩存，最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

編程新範式，當Spring Boot遇上OpenAI Feb 01, 2024 pm 09:18 PM

2023年，AI技術已成為熱門話題，對各行業產生了巨大影響，程式設計領域尤其如此。人們越來越認識到AI技術的重要性，Spring社群也不例外。隨著GenAI（GeneralArtificialIntelligence）技術的不斷進步，簡化具備AI功能的應用程式的創建變得至關重要和迫切。在這個背景下，"SpringAI"應運而生，旨在簡化開發AI功能應用程式的過程，使其變得簡單直觀，避免不必要的複雜性。透過"SpringAI"，開發者可以更輕鬆地建立具備AI功能的應用程序，將其變得更加易於使用和操作

選擇最適合資料的嵌入模型：OpenAI 和開源多語言嵌入的對比測試 Feb 26, 2024 pm 06:10 PM

OpenAI最近宣布推出他們的最新一代嵌入模型embeddingv3，他們聲稱這是效能最出色的嵌入模型，具備更高的多語言效能。這一批模型被劃分為兩種類型：規模較小的text-embeddings-3-small和更強大、體積較大的text-embeddings-3-large。這些模型的設計和訓練方式的資訊披露得很少,模型只能透過付費API存取。所以就出現了很多開源的嵌入模型但是這些開源的模型與OpenAI閉源模型相比如何呢？本文將對這些新模型與開源模型的效能進行實證比較。我們計劃建立一個數據

大模型一對一戰鬥75萬輪，GPT-4奪冠，Llama 3位列第五 Apr 23, 2024 pm 03:28 PM

關於Llama3，又有測試結果新鮮出爐－大模型評測社群LMSYS發布了一份大模型排行榜單，Llama3位列第五，英文單項與GPT-4並列第一。圖片不同於其他Benchmark，這份榜單的依據是模型一對一battle，由全網測評者自行命題並評分。最終，Llama3取得了榜單中的第五名，排在前面的是GPT-4的三個不同版本，以及Claude3超大杯Opus。而在英文單項榜單中，Llama3反超了Claude，與GPT-4打成了平手。對於這一結果，Meta的首席科學家LeCun十分高興，轉發了推文並

第二代Ameca來了！和觀眾對答如流，臉部表情更逼真，會說幾十種語言 Mar 04, 2024 am 09:10 AM

人形機器人Ameca升級第二代了！最近，在世界行動通訊大會MWC2024上，世界上最先進機器人Ameca又現身了。會場周圍，Ameca引來一大波觀眾。得到GPT-4加持後，Ameca能夠對各種問題做出即時反應。「來一段舞蹈」。當被問及是否有情感時，Ameca用一系列的面部表情做出回應，看起來非常逼真。就在前幾天，Ameca背後的英國機器人公司EngineeredArts剛剛示範了團隊最新的開發成果。影片中，機器人Ameca具備了視覺能力，能看見並描述房間整個狀況、描述具體物體。最厲害的是，她還能

全球最強模型一夜易主，GPT-4時代終結！ Claude 3提前狙擊GPT-5，3秒讀懂萬字論文理解力接近人類 Mar 06, 2024 pm 12:58 PM

卷瘋了卷瘋了，大模型又變天了。就在剛剛，全球最強AI模型一夜易主，GPT-4被拉下神壇。 Anthropic發布了最新的Claude3系列模型，一句話評價：真·全面碾壓GPT-4！在多模態和語言能力指標上，Claude3都贏麻了。用Anthropic的話來說，Claude3系列模型在推理、數學、編碼、多語言理解和視覺方面，都樹立了新的行業基準！ Anthropic，就是曾因安全理念不合，而從OpenAI「叛逃」出的員工組成的新創公司，他們的產品一再給OpenAI暴擊。這次的Claude3，更是整了個大的

OpenAI超級對齊團隊遺作：兩個大模型博弈一番，輸出更好懂了 Jul 19, 2024 am 01:29 AM

如果AI模型給的答案一點也看不懂，你敢用嗎？隨著機器學習系統在更重要的領域中得到應用，證明為什麼我們可以信任它們的輸出，並明確何時不應信任它們，變得越來越重要。獲得對複雜系統輸出結果信任的一個可行方法是，要求系統對其輸出產生一種解釋，這種解釋對人類或另一個受信任的系統來說是可讀的，即可以完全理解以至於任何可能的錯誤都可以被發現。例如，為了建立對司法系統的信任，我們要求法院提供清晰易讀的書面意見，解釋並支持其決策。對於大型語言模型來說，我們也可以採用類似的方法。不過，在採用這種方法時，確保語言模型生

基於Rust的Zed編輯器已開源，內建對OpenAI和GitHub Copilot的支持 Feb 01, 2024 pm 02:51 PM

作者丨TimAnderson編譯丨諾亞出品|51CTO技術堆疊（微訊號：blog51cto）Zed編輯器專案目前仍處於預發布階段，已在AGPL、GPL和Apache許可下開源。此編輯器以高性能和多種AI輔助選擇為特色，但目前僅適用於Mac平台使用。內森·索博（NathanSobo）在一篇貼文中解釋道，Zed專案在GitHub上的程式碼庫中，編輯器部分採用了GPL許可，伺服器端元件則使用了AGPL許可證，而GPUI（GPU加速用戶介面）部分則採用了Apache2.0授權。 GPUI是Zed團隊開發的一款

See all articles

GPT-4發布前，OpenAI曾僱用各行專家進行「對抗性測試」以規避歧視等問題

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題