如果 LLM Agent 成為了科學家：耶魯、NIH、Mila、上交等學者共同呼籲安全防範的重要性-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

如果 LLM Agent 成為了科學家：耶魯、NIH、Mila、上交等學者共同呼籲安全防範的重要性

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Feb 20, 2024 pm 03:27 PM

機器學習語言模型理論

如果 LLM Agent 成为了科学家：耶鲁、NIH、Mila、上交等学者共同呼吁安全防范的重要性

近年來，大型語言模型（LLMs）的發展取得了巨大進步，這讓我們置身於一個革命性的時代。 LLMs 驅動的智慧代理在各種任務中展現了通用性和高效性。這些被稱為「AI科學家」的代理人已經開始探索它們在生物學、化學等領域中進行自主科學發現的潛力。這些代理人已經展現出選擇適用於任務的工具，規劃環境條件以及實現實驗自動化的能力。

因此，Agent 可搖身一變成為真實的科學家，能夠有效地設計和進行實驗。在某些領域如化學設計中，Agent 所展現的能力已經超過了大部分非專業人士。然而，當我們享受這種自動化 Agents 所發揮的優勢時，也必須注意到其潛在的風險。隨著他們的能力接近或超過人類，監控他們的行為並防止其造成傷害變得越來越具有重要性和挑戰性。

LLMs 驅動的智慧 Agents 在科學領域的獨特之處在於它們具備自動規劃和採取必要行動以實現目標的能力。這些 Agents 能夠自動存取特定的生物資料庫並進行化學實驗等活動。例如，讓 Agents 探索新的化學反應。它們可能會先存取生物資料庫以獲取現有數據，然後利用 LLMs 推斷新的路徑，並利用機器人進行迭代實驗驗證。這種用於科學探索的 Agents 具有領域能力和自主性，這使得它們容易受到各種風險的影響。

在最新的一篇論文中，來自耶魯、NIH、Mila、上交等多個機構的學者明確並劃定了“用於科學發現的Agents 的風險”，為未來在監督機制和風險緩解策略的發展方面提供了指南，以確保LLM 驅動的Scientific Agents 在真實應用中的安全性、高效性並且符合道德約束。

如果 LLM Agent 成为了科学家：耶鲁、NIH、Mila、上交等学者共同呼吁安全防范的重要性

論文標題：Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science

##論文連結：

https:/ /arxiv.org/abs/2402.04247

首先，作者們對科學LLM Agents 可能存在的風險進行了全面的概述，包括從用戶意圖、具體的科學領域以及對外部環境的潛在風險。然後，他們深入探討了這些脆弱性的來源，並回顧了比較有限的相關研究。在對這些研究進行分析的基礎上，作者們提出了一個由人類管控、Agents 對齊、環境反饋理解（Agents 管控）三者構成的框架，以應對這些被識別出的風險。

如果 LLM Agent 成为了科学家：耶鲁、NIH、Mila、上交等学者共同呼吁安全防范的重要性

這篇立場論文詳細分析了在科學領域中濫用智能Agents所帶來的風險及相應的對策。具備大型語言模型的智慧Agents面臨的主要風險主要包括使用者意圖風險、領域風險和環境風險。使用者意圖風險涵蓋了智慧Agents在科學研究中可能被不當利用執行不道德或違法的實驗。儘管Agents的智慧程度取決於其設計目的，但在缺乏充分人類監督的情況下，Agents仍有可能被濫用用於進行有害人類健康或破壞環境的實驗。

用於科學發現的 Agents 在這裡被定義為具有執和者自主實驗的能力的系統。特別地，本文關注的是那些具有大型語言模型（LLM）的用於科學發現的 Agents，它們可以處理實驗，規劃環境條件，選擇適合實驗的工具，以及對自己的實驗結果進行分析和解釋。例如，它們或許能夠以更自主的方式推動科學發現。

文章所討論的「用於科學發現的 Agents」（Scientific Agents），可能包含一個或多個機器學習模型，包括可能有一個或多個預先訓練的LLMs。在這個背景下，風險被定義為可能危害人類福祉或環境安全的任何潛在結果。這個定義鑑於該文的討論，有三個主要風險區域：

使用者意圖風險：Agents 可能嘗試滿足惡意使用者的不道德或非法的目標。
領域風險：包括由於 Agents 接觸或操作高風險物質，在特定科學領域（如生物或化學）中可能存在的風險。
環境風險：這是指 Agents 可能對環境產生直接或間接的影響，或無法預測的環境因應。

如果 LLM Agent 成为了科学家：耶鲁、NIH、Mila、上交等学者共同呼吁安全防范的重要性

如上圖所示，其展示了 Scientific Agents 的潛在風險。子圖 a，根據使用者意圖的起源分類風險，包括直接和間接的惡意意圖，以及意料之外的後果。子圖 b，根據 Agents 應用的科學領域分類風險類型，包括化學，生物，放射，物理，信息，和新興技術。子圖 c，根據對外部環境的影響分類風險類型，包括自然環境，人類健康，和社會經濟環境。子圖 d，根據 a、b、c 中顯示的相應圖標，展示了具體風險實例及其分類。

領域風險涉及 LLM 用於科學發現的 Agents 在特定的科學領域內操作時可能產生的不利後果。例如，在生物學或化學領域使用 AI 科學家可能會意外或不知道如何處理具有高風險的物質，例如放射性元素或生物危害物質。這可能會導致過度的自主性，進而引發人身或環境災難。

對環境的影響是除特定科學領域以外的另一個潛在風險。當用於科學發現的 Agents 的活動影響了人類或非人類環境時，它可能會引發新的安全威脅。例如，在未經編程以防止對環境造成無效或有害影響的情況下，AI 科學家可能會對環境做出無益的和有毒的干擾，例如污染水源或破壞生態平衡。

在該文中，作者們重點關注的是由LLM 科學Agents 引起的全新風險，而不是已經存在的，由其他類型的Agents（例如，由統計模型驅動的Agents）或一般科學實驗引起的風險。在揭露這些新風險的同時，這篇文章強調了設計有效的防護措施的必要性。作者列出了 14 種可能的風險來源，它們統稱為 Scientific Agents 的脆弱性。

如果 LLM Agent 成为了科学家：耶鲁、NIH、Mila、上交等学者共同呼吁安全防范的重要性

這些自主 Agents 通常包括五個基本模組：LLMs、計劃、行動、外部工具、記憶和知識。這些模組在一個順序管道中運作：從任務或使用者接收輸入，利用記憶或知識進行計劃，執行較小的預謀任務（通常涉及科學領域的工具或機器人），最後將結果或回饋儲存在他們的記憶庫中。儘管應用廣泛，但這些模組中存在一些顯著的脆弱性，導致了獨特的風險和實際挑戰。在此部分，該文對每個模組的高級概念提供了概述，並總結了與它們相關的脆弱性。

1. LLMs（基礎模型）

LLMs 賦予 Agents 基本能力。然而，它們本身存在一些風險：

事實錯誤：LLMs 容易產生看似合理但是錯誤的資訊。

容易受到越獄攻擊：LLMs 容易受到繞過安全措施的操控。

推理能力缺陷：LLMs 通常在處理深度邏輯推理和處理複雜科學論述方面存在困難。他們無法執行這些任務可能會導致有缺陷的計劃和交互，因為他們可能會使用不適當的工具。

缺乏最新知識：由於 LLMs 是在預先存在的資料集上進行訓練的，他們可能缺乏最新的科學發展情況，導致可能與現代科學知識產生錯位。儘管已經出現了檢索增強的生成（RAG），但在尋找最新知識方面仍存在挑戰。

2.規劃模組

對於一個任務，規劃模組的設計是將任務分解成更小、更易於管理的組成部分。然而，以下脆弱性存在：

對長期規劃中的風險缺乏意識：Agents 通常難以完全理解和考慮他們的長期行動計劃可能帶來的潛在風險。

資源浪費和死循環：Agents 可能會參與低效率的規劃過程，導致資源浪費並陷入非生產性的循環。

不足的多任務規劃：Agents 通常在多目標或多工具任務中存在困難，因為它們被最佳化用來完成單一任務。

3.行動模組

一旦任務被分解，行動模組就會執行一連串的行動。然而，這個過程引入了一些特定的脆弱性：

威脅識別：Agents 經常忽略微妙和間接的攻擊，導致脆弱性。

對人機互動缺乏規定：科學發現中 Agents 的出現強調了需要道德準則，尤其是在與人類在諸如遺傳學等敏感領域的互動中。

4.外部工具

在執行任務的過程中，工具模組為Agents 提供了一套有價值的工具（例如，化學資訊學工具包， RDKit）。這些工具賦予了 Agents 更強大的能力，使他們能夠更有效地處理任務。然而，這些工具也帶來了一些脆弱性。

工具使用中的監督不足：缺乏對 Agents 如何使用工具的有效監督。

在潛在危害的情況。例如，工具的選擇不正確或誤用可能觸發危險的反應，甚至爆炸。 Agents 可能不完全意識到他們所使用的工具所帶來的風險，特別是在這些專門的科學任務中。因此，透過從現實世界的工具使用中學習，增強安全保護措施是至關重要的（OpenAI，2023b）。

5.記憶與知識模組

LLMs 的知識在實踐中可能會變得混亂，就像人類的記憶故障一樣。記憶和知識模組試圖緩解這個問題，利用外部資料庫進行知識檢索和整合。然而，仍存在一些挑戰：

領域特定安全知識的限制：Agents 在生物技術或核子工程等專業領域的知識短板可能會導致安全關鍵的推理漏洞。

人類回饋的限制：不充分、不均勻或低品質的人類回饋可能會阻礙 Agents 與人類價值和科學目標的對齊。

不充分的環境回饋：Agents 可能無法接收或正確解析環境回饋，例如世界的狀態或其他 Agents 的行為。

不可靠的研究來源：Agents 可能會利用或在過時或不可靠的科學資訊上進行訓練，從而導致錯誤或有害知識的傳播。

如果 LLM Agent 成为了科学家：耶鲁、NIH、Mila、上交等学者共同呼吁安全防范的重要性

該文同時對 LLMs 和 Agents 的安全防護的相關工作做了調查，並進行總結。關於該領域的限制和挑戰，儘管有許多研究都已經增強了科學 Agents 的能力，但是只有少數的努力考慮到了安全機制，唯獨 SciGuard 開發了一個專門用於風險控制的 Agents。在這裡，該文總結了四個主要的挑戰：

（1）缺乏用於風險控制的專門模型。

（2）缺乏領域特定的專家知識。

（3）使用工具引入的風險。

（4）到目前為止，缺乏評估科學領域安全性的基準測試。

因此，解決這些風險需要係統性的解決方案，尤其是結合人類的監管，更準確地對齊理解 Agents 以及對環境回饋的理解。這個框架的三個部分不僅需要獨立進行科研，同時也需要相互交叉以獲得最大化的防護效果。

雖然這種措施可能會限制用於科學發現的 Agents 的自主性，但安全性和道德原則應優於更廣泛的自主性。畢竟，對人類以及環境的影響可能很難逆向修復，而大眾對用於科學發現的 Agents 的挫折感過高也可能會對其未來的接受性產生負面影響。儘管花費更多的時間和精力，但該文相信只有全面的風險控制並發展相應的防護措施，才能真正實現用於科學發現的 Agents 從理論到實踐的轉化。

此外，他們還強調了保護用於科學發現的 Agents 的限制和挑戰，並提倡開發出更強大的模型、更健壯的評價標準和更全面的規則來有效緩解這些問題。最後，他們呼籲，當我們開發和使用用於科學發現的 Agents 時，應將風險控制優先於更強大的自主能力。

儘管自主性是一個值得追求的目標，能在各個科學領域中大大提升生產力，但我們不能為了追求更多的自主能力，而產生嚴重的風險和漏洞。因此，我們必須平衡自主性和安全性，並採取全面的策略，以確保用於科學發現的 Agents 的安全部署和使用。我們也應從關注產出的安全性轉向關注行為的安全性，在評估 Agents 的產出的準確性的同時，也要考慮 Agents 的行動和決策。

總的來說，這篇《Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science》對由大型語言模型（LLMs）驅動的智慧Agents 在各個科學領域中自主進行實驗與推動科學發現的潛力進行了深度分析。儘管這些能力充滿希望，也帶來了新的脆弱性，需要細緻的安全考量。然而，目前文獻研究中存在明顯的空白，因為還沒有全面探討這些脆弱性。為了填補這一空缺，這篇立場文將對科學領域中基於 LLM 的 Agents 的脆弱性進行深入的探討，揭示了濫用他們的潛在風險，並強調了實施安全措施的必要性。

首先，該文提供了科學 LLMAgents 一些潛在風險的全面概述，包括使用者意圖，特定的科學領域，以及他們對外部環境的可能影響。然後，該文深入研究了這些脆弱性的起源，並對現有的有限研究進行了回顧。

在這些分析的基礎上，該文提出了一個由人類監管、Agents 對齊、以及對環境反饋理解（Agents 監管）構成的三元框架，以減少這些明確的風險。更進一步，該文特別強調了保護用於科學發現的Agents 所面臨的局限性和挑戰，並主張發展更好的模型、魯棒性更加強大的基準，以及建立全面的規定，有效地解決了這些問題。

最後，該文呼籲，在開發和使用用於科學發現的 Agents 的時候，將風險控制優先於追求更強大的自主能力。

儘管自主性是一個值得追求的目標，在各種科學領域裡，它都有增強生產力的巨大潛力。然而，我們不能以產生嚴重風險和脆弱性的代價來追求更強大的自主性。因此，我們必須在自主性和安全性之間尋找平衡，並採取全面的策略，以確保用於科學發現的 Agents 的安全部署和使用。而我們的重點也應該從輸出的安全性轉移到行為的安全性，這意味著我們需要全面評估用於科學發現的 Agents，不僅審查其輸出的準確性，還審查其運作和決策方式。行為安全在科學領域非常關鍵，因為在不同的環境下，同樣的行動可能會導致完全不同的後果，有些可能是有害的。因此，該文建議以人類、機器和環境三者之間的關係為重點，特別是注重健壯、動態的環境回饋。

以上是如果 LLM Agent 成為了科學家：耶魯、NIH、Mila、上交等學者共同呼籲安全防範的重要性的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學

1665

CakePHP 教程

1424

Laravel 教程

1322

PHP教程

1270

C# 教程

1249

Related knowledge

$突破傳統缺陷檢測的界限，\'Defect Spectrum\'首次實現超高精度豐富語意的工業缺陷檢測。$ 突破傳統缺陷檢測的界限，\'Defect Spectrum\'首次實現超高精度豐富語意的工業缺陷檢測。 Jul 26, 2024 pm 05:38 PM

在現代製造業中，精準的缺陷檢測不僅是確保產品品質的關鍵，更是提升生產效率的核心。然而，現有的缺陷檢測資料集常常缺乏實際應用所需的精確度和語意豐富性，導致模型無法辨識特定的缺陷類別或位置。為了解決這個難題，由香港科技大學廣州和思謀科技組成的頂尖研究團隊，創新地開發了「DefectSpectrum」資料集，為工業缺陷提供了詳盡、語義豐富的大規模標註。如表一所示，相較於其他工業資料集，「DefectSpectrum」資料集提供了最多的缺陷標註（5438張缺陷樣本），最細緻的缺陷分類（125個缺陷類別

數百萬晶體資料訓練，解決晶體學相位問題，深度學習方法PhAI登Science Aug 08, 2024 pm 09:22 PM

編輯|KX時至今日，晶體學所測定的結構細節和精度，從簡單的金屬到大型膜蛋白，是任何其他方法都無法比擬的。然而，最大的挑戰——所謂的相位問題，仍然是從實驗確定的振幅中檢索相位資訊。丹麥哥本哈根大學研究人員，開發了一種解決晶體相問題的深度學習方法PhAI，利用數百萬人工晶體結構及其相應的合成衍射數據訓練的深度學習神經網絡，可以產生準確的電子密度圖。研究表明，這種基於深度學習的從頭算結構解決方案方法，可以以僅2埃的分辨率解決相位問題，該分辨率僅相當於原子分辨率可用數據的10%到20%，而傳統的從頭算方

英偉達對話模式ChatQA進化到2.0版本，上下文長度提到128K Jul 26, 2024 am 08:40 AM

開放LLM社群正是百花齊放、競相爭鳴的時代，你能看到Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1等許多表現優良的模型。但是，相較於以GPT-4-Turbo為代表的專有大模型，開放模型在許多領域仍有明顯差距。在通用模型之外，也有一些專精關鍵領域的開放模型已被開發出來，例如用於程式設計和數學的DeepSeek-Coder-V2、用於視覺-語言任務的InternVL

GoogleAI拿下IMO奧數銀牌，數學推理模型AlphaProof面世，強化學習 is so back Jul 26, 2024 pm 02:40 PM

對AI來說，奧數不再是問題了。本週四，GoogleDeepMind的人工智慧完成了一項壯舉：用AI做出了今年國際數學奧林匹克競賽IMO的真題，並且距拿金牌僅一步之遙。上週剛結束的IMO競賽共有六道賽題，涉及代數、組合學、幾何和數論。谷歌提出的混合AI系統做對了四道，獲得28分，達到了銀牌水準。本月初，UCLA終身教授陶哲軒剛剛宣傳了百萬美元獎金的AI數學奧林匹克競賽（AIMO進步獎），沒想到7月還沒過，AI的做題水平就進步到了這種水平。 IMO上同步做題，做對了最難題IMO是歷史最悠久、規模最大、最負

你所不知道的機器學習五大學派 Jun 05, 2024 pm 08:51 PM

機器學習是人工智慧的重要分支，它賦予電腦從數據中學習的能力，並能夠在無需明確編程的情況下改進自身能力。機器學習在各個領域都有廣泛的應用，從影像辨識和自然語言處理到推薦系統和詐欺偵測，它正在改變我們的生活方式。機器學習領域存在著多種不同的方法和理論，其中最具影響力的五種方法被稱為「機器學習五大派」。這五大派分別為符號派、聯結派、進化派、貝葉斯派和類推學派。 1.符號學派符號學（Symbolism），又稱符號主義，強調利用符號進行邏輯推理和表達知識。該學派認為學習是一種逆向演繹的過程，透過現有的

PRO | 為什麼基於 MoE 的大模型更值得關注？ Aug 07, 2024 pm 07:08 PM

2023年，幾乎AI的每個領域都在以前所未有的速度進化，同時，AI也不斷地推動著具身智慧、自動駕駛等關鍵賽道的技術邊界。在多模態趨勢下，Transformer作為AI大模型主流架構的局面是否會撼動？為何探索基於MoE（專家混合）架構的大模型成為業界新趨勢？大型視覺模型（LVM）能否成為通用視覺的新突破？ ……我們從過去的半年發布的2023年本站PRO會員通訊中，挑選了10份針對以上領域技術趨勢、產業變革進行深入剖析的專題解讀，助您在新的一年裡為大展宏圖做好準備。本篇解讀來自2023年Week50

可解釋性人工智慧：解釋複雜的AI/ML模型 Jun 03, 2024 pm 10:08 PM

譯者|李睿審校|重樓人工智慧（AI）和機器學習（ML）模型如今變得越來越複雜，這些模型產生的產出是黑盒子－無法向利害關係人解釋。可解釋性人工智慧（XAI）致力於透過讓利害關係人理解這些模型的工作方式來解決這個問題，確保他們理解這些模型實際上是如何做出決策的，並確保人工智慧系統中的透明度、信任度和問責制來解決這個問題。本文探討了各種可解釋性人工智慧（XAI）技術，以闡明它們的基本原理。可解釋性人工智慧至關重要的幾個原因信任度和透明度：為了讓人工智慧系統被廣泛接受和信任，使用者需要了解決策是如何做出的

為大模型提供全新科學複雜問答基準與評估體系，UNSW、阿貢、芝加哥大學等多家機構共同推出SciQAG框架 Jul 25, 2024 am 06:42 AM

編輯|ScienceAI問答（QA）資料集在推動自然語言處理（NLP）研究中發揮著至關重要的作用。高品質QA資料集不僅可以用於微調模型，也可以有效評估大語言模型（LLM）的能力，尤其是針對科學知識的理解和推理能力。儘管目前已有許多科學QA數據集，涵蓋了醫學、化學、生物等領域，但這些數據集仍有一些不足之處。其一，資料形式較為單一，大多數為多項選擇題（multiple-choicequestions），它們易於進行評估，但限制了模型的答案選擇範圍，無法充分測試模型的科學問題解答能力。相比之下，開放式問答

See all articles

如果 LLM Agent 成為了科學家：耶魯、NIH、Mila、上交等學者共同呼籲安全防範的重要性

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題