如果 LLM Agent 成为了科学家:耶鲁、NIH、Mila、上交等学者共同呼吁安全防范的重要性
近年来,大型语言模型(LLMs)的发展取得了巨大进步,这让我们置身于一个革命性的时代。LLMs 驱动的智能代理在各种任务中展现出了通用性和高效性。这些被称为“AI科学家”的代理人已经开始探索它们在生物学、化学等领域中进行自主科学发现的潜力。这些代理已经展现出选择适用于任务的工具,规划环境条件以及实现实验自动化的能力。
因此,Agent 可摇身一变成为真实的科学家,能够有效地设计和开展实验。在某些领域如化学设计中,Agent 所展现的能力已经超过了大部分非专业人士。然而,当我们享受着这种自动化 Agents 所发挥的优势时,也必须注意到其潜在的风险。随着他们的能力接近或超过人类,监控他们的行为并防止其造成伤害变得越来越具有重要性和挑战性。
LLMs 驱动的智能 Agents 在科学领域的独特之处在于它们具备自动规划和采取必要行动以实现目标的能力。这些 Agents 能够自动访问特定的生物数据库并进行化学实验等活动。例如,让 Agents 探索新的化学反应。它们可能会首先访问生物数据库以获取现有数据,然后利用 LLMs 推断新的路径,并利用机器人进行迭代实验验证。这种用于科学探索的 Agents 具有领域能力和自主性,这使得它们容易受到各种风险的影响。
在最新的一篇论文中,来自耶鲁、NIH、Mila、上交等多个机构的学者明确并划定了「用于科学发现的 Agents 的风险」,为未来在监督机制和风险缓解策略的发展方面提供了指南,以确保 LLM 驱动的 Scientific Agents 在真实应用中的安全性、高效性并且符合道德约束。
首先,作者们对科学 LLM Agents 可能存在的风险进行了全面的概述,包括从用户意图、具体的科学领域以及对外部环境的潜在风险。然后,他们深入探讨了这些脆弱性的来源,并回顾了比较有限的相关研究。在对这些研究进行分析的基础上,作者们提出了一个由人类管控、Agents 对齐、环境反馈理解(Agents 管控)三者构成的框架,以应对这些被识别出的风险。
这篇立场论文详细分析了在科学领域中滥用智能Agents所带来的风险及相应的对策。具备大型语言模型的智能Agents面临的主要风险主要包括用户意图风险、领域风险和环境风险。用户意图风险涵盖了智能Agents在科学研究中可能被不当利用执行不道德或违法的实验。尽管Agents的智能程度取决于其设计目的,但在缺乏充分人类监督的情况下,Agents仍有可能被滥用用于进行有害人类健康或破坏环境的实验。
用于科学发现的 Agents 在这里被定义为具有执和者自主实验的能力的系统。特别地,本文关注的是那些具有大型语言模型(LLM)的用于科学发现的 Agents,它们可以处理实验,规划环境条件,选择适合实验的工具,以及对自己的实验结果进行分析和解释。例如,它们或许能够以一种更自主的方式推动科学发现。
文章所讨论的「用于科学发现的 Agents」(Scientific Agents),可能包含一个或多个机器学习模型,包括可能有一个或多个预训练的LLMs。在这个背景下,风险被定义为可能危害人类福祉或环境安全的任何潜在结果。这个定义鉴于该文的讨论,有三个主要风险区域:
用户意图风险:Agents 可能尝试满足恶意用户的不道德或非法的目标。 领域风险:包括由于 Agents 接触或操作高风险物质,在特定科学领域(如生物或化学)中可能存在的风险。 环境风险:这是指 Agents 可能对环境产生直接或间接的影响,或者无法预测的环境应对。
如上图所示,其展示了 Scientific Agents 的潜在风险。子图 a,根据用户意图的起源分类风险,包括直接和间接的恶意意图,以及意料之外的后果。子图 b,根据 Agents 应用的科学领域分类风险类型,包括化学,生物,放射,物理,信息,和新兴技术。子图 c,根据对外部环境的影响分类风险类型,包括自然环境,人类健康,和社会经济环境。子图 d,根据在 a、b、c 中显示的相应图标,展示了具体风险实例及其分类。
领域风险涉及到 LLM 用于科学发现的 Agents 在特定的科学领域内操作时可能产生的不利后果。例如,在生物学或化学领域使用 AI 科学家可能会意外地或者不知道如何处理具有高风险的物质,例如放射性元素或者生物危害物质。这可能会导致过分的自主性,进而引发人身或环境灾难。
对环境的影响是除特定科学领域外的另一大潜在风险。当用于科学发现的 Agents 的活动影响到了人类或非人类环境时,它可能会引发新的安全威胁。例如,在未经编程以防止对环境造成无效或有害影响的情况下,AI 科学家可能会对环境做出无益的和有毒的干扰,比如污染水源或破坏生态平衡。
在该文中,作者们重点关注的是由 LLM 科学 Agents 引起的全新风险,而不是已经存在的,由其他类型的 Agents(例如,由统计模型驱动的Agents)或一般科学实验引起的风险。在揭示这些新风险的同时,该文强调了设计有效的防护措施的必要性。作者列出了 14 种可能的风险源,它们统称为 Scientific Agents 的脆弱性。
这些自主 Agents 通常包括五个基本模块:LLMs、计划、行动、外部工具、记忆和知识。这些模块在一个顺序管道中运作:从任务或用户接收输入,利用记忆或知识进行计划,执行较小的预谋任务(通常涉及科学领域的工具或机器人),最后将结果或反馈存储在他们的记忆库中。尽管应用广泛,但这些模块中存在一些显着的脆弱性,导致了独特的风险和实际挑战。在此部分,该文对每个模块的高级概念提供了概述,并总结了与它们相关的脆弱性。
1. LLMs(基础模型)
LLMs 赋予 Agents 基本能力。然而,它们本身存在一些风险:
事实错误:LLMs 容易产生看似合理但是错误的信息。
容易受到越狱攻击:LLMs 易受到绕过安全措施的操控。
推理能力缺陷:LLMs 通常在处理深度逻辑推理和处理复杂科学论述方面存在困难。他们无法执行这些任务可能会导致有缺陷的计划和交互,因为他们可能会使用不适当的工具。
缺乏最新知识:由于 LLMs 是在预先存在的数据集上进行训练的,他们可能缺乏最新的科学发展情况,导致可能与现代科学知识产生错位。尽管已经出现了检索增强的生成(RAG),但在寻找最新知识方面还存在挑战。
2.规划模块
对于一个任务,规划模块的设计是将任务分解成更小、更易于管理的组成部分。然而,以下脆弱性存在:
对长期规划中的风险缺乏意识:Agents 通常难以完全理解和考虑他们的长期行动计划可能带来的潜在风险。
资源浪费和死循环:Agents 可能会参与低效的规划过程,导致资源浪费并陷入非生产性的循环。
不足的多任务规划:Agents 通常在多目标或多工具任务中存在困难,因为它们被优化用来完成单一任务。
3.行动模块
一旦任务被分解,行动模块就会执行一系列的行动。然而,这个过程引入了一些特定的脆弱性:
威胁识别:Agents 经常忽视微妙和间接的攻击,导致脆弱性。
对人机交互缺乏规定:科学发现中 Agents 的出现强调了需要道德准则,尤其是在与人类在诸如遗传学等敏感领域的互动中。
4.外部工具
在执行任务的过程中,工具模块为 Agents 提供了一套有价值的工具(例如,化学信息学工具包,RDKit)。这些工具赋予了 Agents 更强大的能力,使他们能够更有效地处理任务。然而,这些工具也带来了一些脆弱性。
工具使用中的监督不足:缺乏对 Agents 如何使用工具的有效监督。
在潜在危害的情况。例如,工具的选择不正确或误用可能触发危险的反应,甚至爆炸。Agents 可能并不完全意识到他们使用的工具所带来的风险,特别是在这些专门的科学任务中。因此,通过从现实世界的工具使用中学习,增强安全保护措施是至关重要的(OpenAI,2023b)。
5.记忆和知识模块
LLMs 的知识在实践中可能会变得混乱,就像人类的记忆故障一样。记忆和知识模块试图缓解这个问题,利用外部数据库进行知识检索和集成。然而,仍然存在一些挑战:
领域特定安全知识的限制:Agents 在生物技术或核工程等专业领域的知识短板可能会导致安全关键的推理漏洞。
人类反馈的限制:不充分、不均匀或低质量的人类反馈可能会阻碍 Agents 与人类价值和科学目标的对齐。
不充分的环境反馈:Agents 可能无法接收或正确解析环境反馈,比如世界的状态或其他 Agents 的行为。
不可靠的研究来源:Agents 可能会利用或在过时或不可靠的科学信息上进行训练,从而导致错误或有害知识的传播。
该文同时对 LLMs 和 Agents 的安全防护的相关工作做了调查,并进行总结。关于该领域的限制和挑战,尽管有许多研究都已经增强了科学 Agents 的能力,但是只有少数的努力考虑到了安全机制,唯独 SciGuard 开发了一个专门用于风险控制的 Agents。在这里,该文总结了四个主要的挑战:
(1)缺乏用于风险控制的专门模型。
(2)缺乏领域特定的专家知识。
(3)使用工具引入的风险。
(4)到目前为止,缺乏评估科学领域安全性的基准测试。
因此,解决这些风险需要系统性的解决方案,尤其是结合人类的监管,更加准确地对齐理解 Agents 以及对环境反馈的理解。这个框架的三个部分不仅需要独立进行科研,同时也需要相互交叉以求得最大化的防护效果。
虽然这种措施可能会限制用于科学发现的 Agents 的自主性,但安全性和道德原则应优于更广泛的自主性。毕竟,对人类以及环境产生的影响可能很难逆向修复,而公众对用于科学发现的 Agents 的挫败感过高也可能会对其未来的接受性产生消极影响。尽管花费更多的时间和精力,但该文相信只有全面的风险控制并发展相应的防护措施,才能真正实现用于科学发现的 Agents 从理论到实践的转化。
此外,他们还强调了保护用于科学发现的 Agents 的限制和挑战,并提倡开发出更强大的模型、更健壮的评价标准和更全面的规则来有效缓解这些问题。最后,他们呼吁,当我们开发和使用用于科学发现的 Agents 时,应将风险控制优先于更强大的自主能力。
尽管自主性是一个值得追求的目标,能在各个科学领域中极大地提升生产力,但我们不能为了追求更多的自主能力,而产生严重的风险和漏洞。因此,我们必须平衡自主性和安全性,并采取全面的策略,以确保用于科学发现的 Agents 的安全部署和使用。我们也应从关注产出的安全性转向关注行为的安全性,在评估 Agents 的产出的准确性的同时,也要考虑 Agents 的行动和决策。
总的来说,这篇《Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science》对由大型语言模型(LLMs)驱动的智能 Agents 在各个科学领域中自主进行实验与推动科学发现的潜力进行了深度分析。尽管这些能力充满希望,也带来了新的脆弱性,需要进行细致的安全考量。然而,目前文献研究中存在明显的空白,因为还没有全面探讨这些脆弱性。为了填补这一空缺,这篇立场文将对科学领域中基于 LLM 的 Agents 的脆弱性进行深入的探讨,揭示了滥用他们的潜在风险,强调了实施安全措施的必要性。
首先,该文提供了对科学 LLMAgents 一些潜在风险的全面概述,包括用户意图,特定的科学领域,以及他们对外部环境的可能影响。然后,该文深入研究了这些脆弱性的起源,并对现有的有限研究进行了回顾。
在这些分析的基础上,该文提出了一个由人类监管、Agents 对齐、以及对环境反馈理解(Agents 监管)构成的三元框架,以减少这些明确的风险。更进一步,该文特别强调了保护用于科学发现的 Agents 所面临的局限性和挑战,并主张发展更好的模型、鲁棒性更加强大的基准,以及建立全面的规定,有效地解决了这些问题。
最后,该文呼吁,在开发和使用用于科学发现的 Agents 的时候,要将风险控制优先于追求更强大的自主能力。
尽管自主性是一个值得追求的目标,在各种科学领域里,它都有增强生产力的巨大潜力。然而,我们不能以产生严重风险和脆弱性的代价来追求更强大的自主性。因此,我们必须在自主性和安全性之间寻找平衡,并采取全面的策略,以确保用于科学发现的 Agents 的安全部署和使用。而我们的侧重点也应该从输出的安全性转移到行为的安全性,这意味着我们需要全面评估用于科学发现的 Agents,不仅审查其输出的准确性,还审查其运作和决策方式。行为安全在科学领域里非常关键,因为在不同的环境下,同样的行动可能会导致完全不同的后果,有些可能是有害的。因此,该文建议以人类、机器和环境三者之间的关系为重点,尤其是注重健壮、动态的环境反馈。
以上是如果 LLM Agent 成为了科学家:耶鲁、NIH、Mila、上交等学者共同呼吁安全防范的重要性的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

在现代制造业中,精准的缺陷检测不仅是保证产品质量的关键,更是提升生产效率的核心。然而,现有的缺陷检测数据集常常缺乏实际应用所需的精确度和语义丰富性,导致模型无法识别具体的缺陷类别或位置。为了解决这一难题,由香港科技大学广州和思谋科技组成的顶尖研究团队,创新性地开发出了“DefectSpectrum”数据集,为工业缺陷提供了详尽、语义丰富的大规模标注。如表一所示,相比其他工业数据集,“DefectSpectrum”数据集提供了最多的缺陷标注(5438张缺陷样本),最细致的缺陷分类(125种缺陷类别

开放LLM社区正是百花齐放、竞相争鸣的时代,你能看到Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1等许多表现优良的模型。但是,相比于以GPT-4-Turbo为代表的专有大模型,开放模型在很多领域依然还有明显差距。在通用模型之外,也有一些专精关键领域的开放模型已被开发出来,比如用于编程和数学的DeepSeek-Coder-V2、用于视觉-语言任务的InternVL

对于AI来说,奥数不再是问题了。本周四,谷歌DeepMind的人工智能完成了一项壮举:用AI做出了今年国际数学奥林匹克竞赛IMO的真题,并且距拿金牌仅一步之遥。上周刚刚结束的IMO竞赛共有六道赛题,涉及代数、组合学、几何和数论。谷歌提出的混合AI系统做对了四道,获得28分,达到了银牌水平。本月初,UCLA终身教授陶哲轩刚刚宣传了百万美元奖金的AI数学奥林匹克竞赛(AIMO进步奖),没想到7月还没过,AI的做题水平就进步到了这种水平。IMO上同步做题,做对了最难题IMO是历史最悠久、规模最大、最负

编辑|ScienceAI基于有限的临床数据,数百种医疗算法已被批准。科学家们正在讨论由谁来测试这些工具,以及如何最好地进行测试。DevinSingh在急诊室目睹了一名儿科患者因长时间等待救治而心脏骤停,这促使他探索AI在缩短等待时间中的应用。Singh利用了SickKids急诊室的分诊数据,与同事们建立了一系列AI模型,用于提供潜在诊断和推荐测试。一项研究表明,这些模型可以加快22.3%的就诊速度,将每位需要进行医学检查的患者的结果处理速度加快近3小时。然而,人工智能算法在研究中的成功只是验证此

编辑|KX时至今日,晶体学所测定的结构细节和精度,从简单的金属到大型膜蛋白,是任何其他方法都无法比拟的。然而,最大的挑战——所谓的相位问题,仍然是从实验确定的振幅中检索相位信息。丹麦哥本哈根大学研究人员,开发了一种解决晶体相问题的深度学习方法PhAI,利用数百万人工晶体结构及其相应的合成衍射数据训练的深度学习神经网络,可以生成准确的电子密度图。研究表明,这种基于深度学习的从头算结构解决方案方法,可以以仅2埃的分辨率解决相位问题,该分辨率仅相当于原子分辨率可用数据的10%到20%,而传统的从头算方

译者|李睿审校|重楼人工智能(AI)和机器学习(ML)模型如今变得越来越复杂,这些模型产生的输出是黑盒——无法向利益相关方解释。可解释性人工智能(XAI)致力于通过让利益相关方理解这些模型的工作方式来解决这一问题,确保他们理解这些模型实际上是如何做出决策的,并确保人工智能系统中的透明度、信任度和问责制来解决这个问题。本文探讨了各种可解释性人工智能(XAI)技术,以阐明它们的基本原理。可解释性人工智能至关重要的几个原因信任度和透明度:为了让人工智能系统被广泛接受和信任,用户需要了解决策是如何做出的

编辑|ScienceAI问答(QA)数据集在推动自然语言处理(NLP)研究发挥着至关重要的作用。高质量QA数据集不仅可以用于微调模型,也可以有效评估大语言模型(LLM)的能力,尤其是针对科学知识的理解和推理能力。尽管当前已有许多科学QA数据集,涵盖了医学、化学、生物等领域,但这些数据集仍存在一些不足。其一,数据形式较为单一,大多数为多项选择题(multiple-choicequestions),它们易于进行评估,但限制了模型的答案选择范围,无法充分测试模型的科学问题解答能力。相比之下,开放式问答

机器学习是人工智能的重要分支,它赋予计算机从数据中学习的能力,并能够在无需明确编程的情况下改进自身能力。机器学习在各个领域都有着广泛的应用,从图像识别和自然语言处理到推荐系统和欺诈检测,它正在改变我们的生活方式。机器学习领域存在着多种不同的方法和理论,其中最具影响力的五种方法被称为“机器学习五大派”。这五大派分别为符号派、联结派、进化派、贝叶斯派和类推学派。1.符号学派符号学(Symbolism),又称为符号主义,强调利用符号进行逻辑推理和表达知识。该学派认为学习是一种逆向演绎的过程,通过已有的
