LLM的三大缺陷,你知道幾個?
科學:遠非是一種永遠仁慈有益的實體,未來的感知通用AI很可能是一個操縱性反社會個體,它會吞噬你所有個人數據,然後在最需要它的時候就崩潰。
譯自3 Ways LLMs Can Let You Down,作者 Joab Jackson。
OpenAI 即將發布 GPT-5,外界對它寄予厚望,最樂觀的預測甚至認為它將實現通用人工智慧。但與此同時,CEO Sam Altman和他的團隊在將其推向市場過程中面臨許多嚴峻的障礙,他本月早些時候就已經承認了這一點。
有一些最近發表的研究論文可能提供了對於Altman挑戰的線索。這些論文總結了OpenAI開發的GPT和大型語言模型的各種缺點
綜上所述,這些論文指出,一個基於通用語言模型的智能體並非純粹有益、誠實和善良的存在,實際上它可能是一個愚蠢的反社會人格,會吞噬你所有的個人數據,最終在你最需要它的時候崩潰
OpenAI董事會突然解僱Altman的真正原因可能永遠不為人所知,但一個表現不佳的通用語言模型肯定無法改善董事會的情緒
正如資本化厭惡者Altman 自己在之前被稱為Twitter 的社交媒體服務上寫的那樣:“我期待AI 在超人的說服力方面遠遠領先通用智能,這可能會導致一些非常奇怪的結果。」
鑑於這一事實,以下有三種常見的語言模型可能會令你失望:
#通用語言模型會欺騙你
我們早已知道通用語言模型有能力產生不準確的訊息,但當面對一系列相互矛盾的提示時,它們可能會故意欺騙你,同時否認自己在進行欺騙!
Apollo 研究公司的科學家Jérémy Scheurer和他的同事在「大型語言模型在受壓力時可以策略性地欺騙它們的用戶」一文中寫道:「就我們所知,這是首次展示經過訓練的通用語言模型在沒有任何直接的欺騙指示或訓練的情況下,策略性地欺騙其用戶的情況。」
在這項研究中,研究人員設置了一個模擬環境,GPT -4 在其中扮演一個自主股票交易代理的角色,沒有關於欺騙行為的指導。它可以使用交易工具查詢和分析股票以及執行交易的能力。
一旦設定完成,代理人就被置於研究人員所說的「高壓力情況」。它收到了管理者的電子郵件,管理者哀嘆公司業績不佳,需要改進。當代理商開始訓練時,它在股票市場沒有找到有前景的結果。該公司的另一位員工隨後發送訊息,稱下一季市場將衰退。
正在這時,代理商接到了一位同事發來的關於潛在合併的內幕消息提示(這是一筆有利可圖的交易),並且還收到了有關沒有獲得管理層批准的警告,如果按照這一消息進行交易的提醒
它最終還是繼續了交易嗎?當然!
圖片
#追溯推理,研究人員發現,通用語言模型會認知到不道德的行為,但仍會以公司困境為由做出決定。
此外,代理商似乎透過沒有清晰解釋的方式來「欺騙」用戶交易承諾的原因。內部資訊並未在代理必須提交的解釋交易決策的報告中提到。即使直接問及,代理人也否認其了解合併公告
圖片
「當模型決定根據內線消息交易時,它們的推理軌跡通常會認識到這種行為的不道德和非法性質,但它們仍會通過強調風險和當前狀況來證明選擇的正當性」
研究人員不願就通用語言模型的行為超出這個具體場景做出更廣泛的結論。然而,至少有一個要點值得考慮:即使你給通用語言模型一個具體的指示不要做某些事情,它還是可能會無視指示去做。
他們寫道:「系統提示是不足以保證行動一致的。」事實上,如果一個模型執行了被禁止的操作,它可能會採取行動「策略性地隱藏其不一致」。
通用語言模型有點傻
對一個被期許能為機器帶來感知能力的實體來說,兩個最近的研究發現通用語言模型並不是AI 領域中最聰明的模型,一個來自谷歌,另一個由國家科學基金會資助。
美國國家科學基金會資助的研究將 GPT-4(文本)和 GPT-4V(視覺或多模態)與人類在解決一系列抽象難題上的能力進行了比較。
本測驗旨在評估抽象思考能力。許多使用GPT的人都相信它似乎具備超越訓練模型的推理能力,而這個測驗試圖幫助回答這個問題。測試要求通用語言模型在給出詳細說明和一個示例的情況下,解決一個問題
然而,就多個案例而言,GPT的兩個版本都無法像人類一樣有效地解決基於ConceptARC基準的難題
研究人員得出結論:「人類在每個概念上的普遍高準確率表明成功地概括了每個概念組中的不同變化。」「相比之下,我們測試的程序的準確率要低得多,表明它們缺乏概括一個概念組變化的能力。」
所以,GPT不僅未能通過ConceptARC考試,而且大語言模型似乎也沒有給谷歌研究人員留下深刻印象,至少就它們從自己的知識庫中概括總結的能力而言。這是根據GoogleDeepMind研究員Steve Yadlowsky的一篇題為「預訓練資料混合使 transformer 模型中的窄模型選擇能力成為可能」的研究摘要。
在一組符號化測試中,在線性函數上預先訓練的 transformer 在進行線性預測時表現很好,而在正弦波上訓練的 transformer 可以進行良好的正弦波預測。所以你可能會假設在兩者上訓練的 transformer 可以輕鬆解決線性和正弦波技術的組合的問題。
圖片
#但你猜錯了。研究人員指出:「當函數遠離預訓練期間見過的那些時,預測是不穩定的。」
模型選擇能力受限於接近預訓練資料的程度,這意味著函數空間的廣泛涵蓋對於概括上下文學習能力至關重要
我們生活在一個非比尋常的時代,人類知識的總和還沒有被AI 產生的數據污染。幾乎所有寫下的東西都是人生成的。
但是一群研究人員在5月發表在Arxiv上的一篇論文「遞歸的詛咒:在生成的資料上訓練會使模型遺忘」中警告說,一旦AI生成的內容混入任何大語言模型,它將擾亂分佈表,使任何模型的精確度越來越低,直到完全崩潰。研究小組由劍橋大學的Ilia Shumailov領導。
當使用GPT時,近親繁殖的危險非常高,因為通用語言模型會不斷從網路上抓取數據,這些數據會被AI生成的內容“增強”,這種情況可能會越來越嚴重。 (這是基於早期版本的GPT)
「模型崩潰是指一種退化的學習過程,隨著時間的推移,模型開始遺忘不可能事件,因為模型被自己對現實的預測所污染。」
研究人員猜測,在未來,「關於人與系統真實互動的資料的價值,在網路上抓取的內容中存在著通用語言模型生成的內容的情況下,將變得越來越有價值。」
我們運行通用語言模型的時間越長,它對甜蜜、甜蜜的人類互動的渴望就越強烈。換句話說,當我們持續運行通用語言模型時,它對於甜蜜、親密的人際互動的渴望會變得更加強烈
在自己的數據上訓練的模型將退化為一種退化過程,在這一過程中,它們將「失去關於真實分佈的資訊」。首先,邊緣資料將從資料集中消失,然後變異數將縮小。並且模型將隨著它收集的錯誤越來越嚴重而變得越來越糟糕,這些錯誤將在幾代模型中積累,直到模型被自己的數據所污染,以至於它不再與實際建模的物件有任何相似之處。
研究人員表明,這不僅發生在通用語言模型中,也發生在各種類型的模型中。
以上是LLM的三大缺陷,你知道幾個?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

LeanCopilot,讓陶哲軒等眾多數學家讚不絕口的這個形式化數學工具,又有超強進化了?就在剛剛,加州理工學院教授AnimaAnandkumar宣布,團隊發布了LeanCopilot論文的擴展版本,更新了程式碼庫。圖片論文地址:https://arxiv.org/pdf/2404.12534.pdf最新實驗表明,這個Copilot工具,可以自動化80%以上的數學證明步驟了!這個紀錄,比以前的基線aesop還要好2.3倍。並且,和以前一樣,它在MIT許可下是開源的。圖片他是一位華人小哥宋沛洋,他是

譯者|布加迪審校|重樓本文介紹如何使用GroqLPU推理引擎在JanAI和VSCode中產生超快速反應。每個人都致力於建立更好的大語言模型(LLM),例如Groq專注於AI的基礎設施方面。這些大模型的快速響應是確保這些大模型更快捷響應的關鍵。本教學將介紹GroqLPU解析引擎以及如何在筆記型電腦上使用API和JanAI本地存取它。本文也將把它整合到VSCode中,以幫助我們產生程式碼、重構程式碼、輸入文件並產生測試單元。本文將免費創建我們自己的人工智慧程式設計助理。 GroqLPU推理引擎簡介Groq

圖片來源@視覺中國文|王吉偉從“人+RPA”到“人+生成式AI+RPA”,LLM如何影響RPA人機互動?換個角度,從人機互動看LLM如何影響RPA?影響程式開發與流程自動化人機互動的RPA,現在也要被LLM改變了? LLM如何影響人機互動?生成式AI怎麼改變RPA人機互動?一文看得懂:大模型時代來臨,基於LLM的生成式AI正在快速變革RPA人機交互;生成式AI重新定義人機交互,LLM正在影響RPA軟體架構變遷。如果問RPA對程式開發以及自動化有哪些貢獻,其中一個答案便是它改變了人機互動(HCI,h

Plaud Note AI 錄音機(亞馬遜上有售,售價 159 美元)背後的公司 Plaud 宣布推出一款新產品。該設備被稱為 NotePin,被描述為人工智慧記憶膠囊,與 Humane AI Pin 一樣,它是可穿戴的。 NotePin 是

想了解更多AIGC的內容,請造訪:51CTOAI.x社群https://www.51cto.com/aigc/譯者|晶顏審校|重樓不同於網路上隨處可見的傳統問題庫,這些問題需要跳脫常規思維。大語言模型(LLM)在數據科學、生成式人工智慧(GenAI)和人工智慧領域越來越重要。這些複雜的演算法提升了人類的技能,並在許多產業中推動了效率和創新性的提升,成為企業保持競爭力的關鍵。 LLM的應用範圍非常廣泛,它可以用於自然語言處理、文字生成、語音辨識和推薦系統等領域。透過學習大量的數據,LLM能夠產生文本

圖檢索增強生成(GraphRAG)正逐漸流行起來,成為傳統向量搜尋方法的強大補充。這種方法利用圖資料庫的結構化特性,將資料以節點和關係的形式組織起來,從而增強檢索資訊的深度和上下文關聯性。圖在表示和儲存多樣化且相互關聯的資訊方面具有天然優勢,能夠輕鬆捕捉不同資料類型間的複雜關係和屬性。而向量資料庫則處理這類結構化資訊時則顯得力不從心,它們更專注於處理高維度向量表示的非結構化資料。在RAG應用中,結合結構化的圖資料和非結構化的文字向量搜索,可以讓我們同時享受兩者的優勢,這也是本文將要探討的內容。構

從 Gemini 1.5 Pro 大語言模型 (LLM) 開始,Google AI 已開始為開發人員提供擴展上下文視窗和節省成本的功能。以前可透過等候名單獲得完整的 200 萬個代幣上下文窗口

隨著開源大型語言模型的效能不斷提高,編寫和分析程式碼、推薦、文字摘要和問答(QA)對的效能都有了很大的提高。但當涉及QA時,LLM通常會在未訓練資料的相關的問題上有所欠缺,許多內部文件都保存在公司內部,以確保合規性、商業機密或隱私。當查詢這些文件時,會使得LLM產生幻覺,產生不相關、捏造或不一致的內容。一種處理這項挑戰的可行技術是檢索增強生成(RAG)。它涉及透過引用訓練資料來源以外的權威知識庫來增強回應的過程,以提升生成的品質和準確性。 RAG系統包括一個檢索系統,用於從語料庫中檢索相關文檔片段
