目錄
什麼是 ChatGPT,什麼是LLMs?
LLM 會洩露我的資訊嗎?
首頁 科技週邊 人工智慧 ChatGPT 與大型語言模型:有什麼風險?

ChatGPT 與大型語言模型:有什麼風險?

Apr 08, 2023 am 10:41 AM
chatgpt 模型 大型語言

大型語言模型 (LLM) 和 AI 聊天機器人引起了全世界的興趣,因為 2022 年底發布的 ChatGPT 及其提供的查詢便利性。現在它是有史以來成長最快的消費者應用程式之一,而它的受歡迎程度正促使許多競爭對手開發自己的服務和模型,或快速部署他們一直在內部開發的服務和模型。

與任何新興技術一樣,人們總是擔心這對安全意味著什麼。該部落格在近期更廣泛地考慮了 ChatGPT 和 LLM 的一些網路安全方面。

什麼是 ChatGPT,什麼是LLMs?

ChatGPT 是由美國科技新創公司 OpenAI 開發的人工智慧聊天機器人。它基於GPT-3,這是一種於 2020 年發布的語言模型,它使用深度學習來產生類似人類的文本,但底層的 LLM 技術已經存在了很長時間。

法學碩士是演算法在大量基於文本的資料上進行訓練的地方,這些資料通常是從開放的互聯網上抓取的,因此涵蓋了網頁和——取決於法學碩士——其他來源,如科學研究、書籍或社交媒體帖子. 這涵蓋瞭如此大量的數據,以至於不可能在攝取時過濾掉所有令人反感或不准確的內容,因此“有爭議的”內容很可能包含在其模型中。

這些演算法分析不同單字之間的關係,並將其轉換為機率模型。然後可以給演算法一個「提示」(例如,透過問它一個問題),它會根據其模型中單字的關係提供答案。

通常,其模型中的資料在訓練後是靜態的,儘管它可以透過「微調」(對額外資料進行訓練)和「提示增強」(提供有關問題的上下文資訊)進行改進。提示增強的範例可能是:

Taking into account the below information, how would you describe...

然後將可能大量的文字(或整個文件)複製到提示/問題中。

ChatGPT有效地允許用戶向 LLM 提問,就像您在與聊天機器人進行對話時一樣。最近的其他 LLM 範例包括Google 的 Bard和Meta 的 LLaMa(用於科學論文)的公告。

法學碩士無疑令人印象深刻,因為它們能夠以多種人類和電腦語言產生大量令人信服的內容。然而,它們不是魔法,也不是通用人工智慧,並且包含一些嚴重的缺陷,包括:

  • 他們可能會弄錯事情並「產生幻覺」不正確的事實
  • 他們可能有偏見,通常容易上當受騙(例如,在回答主要問題時)
  • 他們需要巨大的計算資源和海量數據來從頭開始訓練
  • 他們可以被哄騙創造有毒內容並且容易受到「注射攻擊」

LLM 會洩露我的資訊嗎?

一個普遍的擔憂是 LLM 可能會從您的提示中“學習”,並將該資訊提供給查詢相關內容的其他人。這裡有一些令人擔憂的原因,但不是出於許多人考慮的原因。目前,對 LLM 進行訓練,然後查詢產生的模型。 LLM 不會(在撰寫本文時)自動將查詢中的資訊新增至其模型中以供其他人查詢。也就是說,在查詢中包含資訊不會導致該資料併入 LLM。

但是,查詢將對提供 LLM 的組織可見(對於 ChatGPT,對 OpenAI 也是如此)。這些查詢被儲存起來,幾乎肯定會在某個時候用於開發 LLM 服務或模型。這可能意味著 LLM 提供者(或其合作夥伴/承包商)能夠讀取查詢,並可能以某種方式將它們合併到未來的版本中。因此,在提出敏感問題之前,需要徹底了解使用條款和隱私權政策。

一個問題可能是敏感的,因為查詢中包含數據,或者因為誰(以及何時)提出問題。後者的例子可能是,如果發現 CEO 曾經問過“如何最好地解僱員工?”,或者有人問了暴露健康或人際關係的問題。也要記住使用相同登入名稱跨多個查詢聚合資訊。

另一個風險隨著越來越多的組織生產 LLM 而增加,它是在線存儲的查詢可能被黑客攻擊、洩露,或者更有可能意外地公開訪問。這可能包括潛在的用戶身份資訊。另一個風險是 LLM 的營運商後來被一個組織收購,該組織採用與使用者輸入資料時不同的隱私方法。

因此,NCSC 建議:

  • 不要在對公共LLM 的查詢中包含敏感資訊
  • 不要向公開的LLM 提交會導致問題的查詢
##我如何安全地向LLM 提供敏感資訊?

隨著 LLM 的興起,許多組織可能想知道他們是否可以使用 LLM 來自動化某些業務任務,這可能涉及透過微調或及時擴充來提供敏感資訊。雖然不建議將此方法用於公共LLM,但「私有LLM」可能由雲端提供者提供(例如),或者可以完全自行託管:

    對於雲端提供的LLM,使用條款和隱私權政策再次成為關鍵(因為它們對於公共LLM),但更有可能符合雲端服務的現有條款。組織需要了解如何管理用於微調或提示擴充的資料。供應商的研究人員或合作夥伴是否可以使用它?如果是這樣,以什麼形式?資料是單獨共享還是與其他組織匯總共享?提供者的員工在什麼情況下可以查看查詢?
  • 自架 LLM可能非常昂貴。但是,經過安全評估,它們可能適合處理組織資料。特別是,組織應參考我們關於保護基礎設施和資料供應鏈的指南。
LLMs是否讓網路犯罪者的生活更輕鬆?

已經有一些令人難以置信的演示證明 LLM 如何幫助編寫惡意軟體。令人擔憂的是,LLM 可能會幫助懷有惡意(但技能不足)的人創建他們原本無法部署的工具。在他們目前的狀態下,LLMs 看起來令人信服(無論他們是否),並且適合簡單的任務而不是複雜的任務。這意味著 LLM 可用於“幫助專家節省時間”,因為專家可以驗證 LLM 的輸出。

對於更複雜的任務,專家目前更容易從頭開始建立惡意軟體,而不必花時間修正 LLM 產生的內容。但是,能夠創建功能強大的惡意軟體的專家很可能能夠誘使 LLM 編寫功能強大的惡意軟體。 「使用 LLM 從頭開始創建惡意軟體」和「驗證 LLM 創建的惡意軟體」之間的權衡將隨著 LLM 的改進而改變。

也可以詢問LLM以就技術問題提出建議。犯罪分子可能會使用 LLM 來幫助進行超出其當前能力的網路攻擊,尤其是在攻擊者存取網路後。例如,如果攻擊者正在努力提升權限或尋找數據,他們可能會詢問 LLM,並收到與搜尋引擎結果不同但具有更多上下文的答案。當前的 LLM 提供了聽起來令人信服的答案,但可能只是部分正確,尤其是當主題變得更加利基時。這些答案可能會幫助犯罪分子進行他們無法以其他方式執行的攻擊,或者他們可能會建議採取哪些行動來加快對犯罪分子的偵查。無論哪種方式,攻擊者的查詢都可能被 LLM 操作員儲存和保留。

由於 LLM 擅長按需複製寫作風格,因此存在犯罪分子使用 LLM 編寫令人信服的網路釣魚電子郵件(包括多種語言的電子郵件)的風險。這可以幫助具有高技術能力但缺乏語言技能的攻擊者,幫助他們使用目標的母語創建令人信服的網路釣魚電子郵件(或進行社會工程)。

總而言之,在短期內我們可能會看到:

    由於LLM,更有說服力的網路釣魚電子郵件
  • 攻擊者嘗試他們以前不熟悉的技術
技能較低的攻擊者編寫功能強大的惡意軟體的風險也很低。

總結

對於LLM來說,這是一個令人興奮的時刻,尤其是 ChatGPT 吸引了全世界的想像。就像所有技術發展一樣,有人會熱衷於使用它並研究它所提供的功能,以及可能永遠不會使用它的人。

正如我們在上面概述的那樣,毫無疑問,不受限制地使用公共 LLM 存在風險。個人和組織應格外小心他們選擇在提示中提交的資料。您應該確保那些想要嘗試 LLM 的人能夠,但不會將組織資料置於風險之中。

NCSC 意識到與網路安全和 LLM 的採用有關的其他新出現的威脅(和機會),我們當然會在以後的部落格文章中讓您了解這些。

David C - 平台研究技術總監Paul J - 數據科學研究技術總監——編譯自英國NCSC

以上是ChatGPT 與大型語言模型:有什麼風險?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1655
14
CakePHP 教程
1414
52
Laravel 教程
1307
25
PHP教程
1254
29
C# 教程
1228
24
ChatGPT 現在允許免費用戶使用 DALL-E 3 產生每日限制的圖像 ChatGPT 現在允許免費用戶使用 DALL-E 3 產生每日限制的圖像 Aug 09, 2024 pm 09:37 PM

DALL-E 3 於 2023 年 9 月正式推出,是比其前身大幅改進的車型。它被認為是迄今為止最好的人工智慧圖像生成器之一,能夠創建具有複雜細節的圖像。然而,在推出時,它不包括

全球最強開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一 全球最強開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

替代MLP的KAN,被開源專案擴展到卷積了 替代MLP的KAN,被開源專案擴展到卷積了 Jun 01, 2024 pm 10:03 PM

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

特斯拉機器人進廠打工,馬斯克:手的自由度今年將達到22個! 特斯拉機器人進廠打工,馬斯克:手的自由度今年將達到22個! May 06, 2024 pm 04:13 PM

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

牛津大學最新! Mickey:3D中的2D影像匹配SOTA! (CVPR\'24) 牛津大學最新! Mickey:3D中的2D影像匹配SOTA! (CVPR\'24) Apr 23, 2024 pm 01:20 PM

寫在前面項目連結:https://nianticlabs.github.io/mickey/給定兩張圖片,可以透過建立圖片之間的對應關係來估計它們之間的相機姿態。通常,這些對應關係是二維到二維的,而我們估計的姿態在尺度上是不確定的。一些應用,例如隨時隨地實現即時增強現實,需要尺度度量的姿態估計,因此它們依賴外部的深度估計器來恢復尺度。本文提出了MicKey,這是一個關鍵點匹配流程,能夠夠預測三維相機空間中的度量對應關係。透過學習跨影像的三維座標匹配,我們能夠在沒有深度測試的情況下推斷度量相對

FisheyeDetNet:首個以魚眼相機為基礎的目標偵測演算法 FisheyeDetNet:首個以魚眼相機為基礎的目標偵測演算法 Apr 26, 2024 am 11:37 AM

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

單卡跑Llama 70B快過雙卡,微軟硬生把FP6搞到A100哩 | 開源 單卡跑Llama 70B快過雙卡,微軟硬生把FP6搞到A100哩 | 開源 Apr 29, 2024 pm 04:55 PM

FP8和更低的浮點數量化精度,不再是H100的「專利」了!老黃想讓大家用INT8/INT4,微軟DeepSpeed團隊在沒有英偉達官方支援的條件下,硬生在A100上跑起FP6。測試結果表明,新方法TC-FPx在A100上的FP6量化,速度接近甚至偶爾超過INT4,而且比後者擁有更高的精度。在此基礎之上,還有端到端的大模型支持,目前已經開源並整合到了DeepSpeed等深度學習推理框架中。這項成果對大模型的加速效果也是立竿見影──在這種框架下用單卡跑Llama,吞吐量比雙卡還要高2.65倍。一名

全面超越DPO:陳丹琦團隊提出簡單偏好優化SimPO,也煉出最強8B開源模型 全面超越DPO:陳丹琦團隊提出簡單偏好優化SimPO,也煉出最強8B開源模型 Jun 01, 2024 pm 04:41 PM

為了將大型語言模型(LLM)與人類的價值和意圖對齊,學習人類回饋至關重要,這能確保它們是有用的、誠實的和無害的。在對齊LLM方面,一種有效的方法是根據人類回饋的強化學習(RLHF)。儘管RLHF方法的結果很出色,但其中涉及了一些優化難題。其中涉及訓練一個獎勵模型,然後優化一個策略模型來最大化該獎勵。近段時間已有一些研究者探索了更簡單的離線演算法,其中之一就是直接偏好優化(DPO)。 DPO是透過參數化RLHF中的獎勵函數來直接根據偏好資料學習策略模型,這樣就無需顯示式的獎勵模型了。此方法簡單穩定

See all articles