在生成AI时代负责的AI
介绍
现在,我们生活在人工智能时代,我们周围的一切都在一天变得更加聪明。最先进的大语言模型(LLM)和AI代理人能够以最少的人为干预执行复杂的任务。有了这样的先进技术,需要负责任地开发和部署它们。本文基于Bhaskarjit Sarmah在Datahack Summit 2024的研讨会,我们将学习如何建立负责任的AI,并特别关注生成AI(Genai)模型。我们还将探讨国家标准技术研究所(NIST)风险管理框架的准则,旨在确保AI负责任的发展和部署。
概述
- 了解什么是负责人AI以及为什么重要。
- 了解负责人AI的7个支柱以及NIST框架如何帮助开发和部署负责任的AI。
- 了解AI模型中的幻觉以及如何被检测到。
- 了解如何构建负责任的AI模型。
目录
- 介绍
- 什么是负责人AI?
- 为什么负责人AI很重要?
- 负责人AI的7个支柱
- 解决AI生成的内容的不确定性
- 确保AI生成的响应的安全
- 增强Genai模型的安全性
- 增加Genai模型的问责制
- 确保AI生成的响应的透明度
- 在Genai模型中合并公平
- 保护AI生成的响应中的隐私
- Genai模型中的幻觉是什么?
- 如何在Genai模型中检测幻觉?
- 建立负责的人工智能
- 结论
- 常见问题
什么是负责人AI?
负责人的AI是指设计,开发和部署AI系统优先考虑道德考虑,公平性,透明度和问责制。它解决了有关偏见,隐私和安全的担忧,以消除对用户和社区的任何潜在负面影响。它旨在确保AI技术与人类价值观和社会需求保持一致。
构建负责人的AI是一个多步骤过程。这涉及实施数据使用,算法设计和决策过程的准则和标准。它涉及在发展过程中吸收不同利益相关者的意见,以抵抗任何偏见并确保公平。该过程还需要对AI系统进行持续监视,以识别和纠正任何意外后果。负责人AI的主要目标是开发能够使社会受益的技术,同时达到道德和法律标准。
推荐手表:探索负责人的AI:与Ravit Dotan的见解,框架和创新|领导数据37
为什么负责人AI很重要?
LLM在大型数据集上进行了培训,其中包含Internet上可用的各种信息。这可能包括受版权保护的内容以及机密和个人身份信息(PII)。结果,生成AI模型创建的响应可能以非法或有害方式使用此信息。
这也带来了人们欺骗Genai模型来发出PII的风险,例如电子邮件ID,电话号码和信用卡信息。因此,重要的是要确保语言模型不会再生受版权保护的内容,产生有毒输出或发出任何PII。
随着越来越多的任务被AI自动化,与AI生成的响应的偏见,信心和透明度有关的其他问题也在上升。
例如,传统上使用基本的自然语言处理器(NLP)构建了情感分类模型。但是,这是一个漫长的过程,其中包括收集数据,标记数据,进行功能提取,训练模型,调整超参数等等。但是现在,使用Genai,您只需一个简单的提示即可进行情感分析!但是,如果模型的训练数据包括任何偏见,这将导致模型生成偏见的输出。这是一个主要问题,尤其是在决策模型中。
这些只是负责AI开发的一些主要原因。
负责人AI的7个支柱
2023年10月,美国总统拜登(Biden)发布了一项行政命令,指出必须以安全,安全和值得信赖的方式部署和使用AI申请。按照他的命令,NIST设定了一些严格的标准,AI开发人员必须在发布任何新模型之前必须遵循。这些规则旨在解决有关生成AI的安全使用面临的一些最大挑战。
NIST风险管理框架中所述的负责人AI的7个支柱是:
- 不确定
- 安全
- 安全
- 问责制
- 透明度
- 公平
- 隐私
让我们详细探讨这些准则中的每一个,以了解它们如何帮助开发负责任的Genai模型。
1。解决AI生成的内容的不确定性
机器学习模型(Genai)或其他方式不是100%准确的。有时他们会发出准确的响应,有时输出可能会幻觉。我们怎么知道何时相信AI模型的响应以及何时对其进行怀疑?
解决此问题的一种方法是为每个回应引入幻觉分数或信心分数。置信度得分基本上是一种措施,告诉我们该模型对其响应的准确性有多确定。例如,如果该模型为20%或90%,则该模型。这将增加AI生成的响应的可信度。
模型置信度如何计算?
有3种方法可以计算模型响应的置信度得分。
- 共形预测:此统计方法生成的预测集,其中包含具有指定概率的真实标签。它检查并确保预测设置是否满足保证要求。
- 基于熵的方法:此方法通过计算预测类的概率分布的熵来衡量模型预测的不确定性。
- 贝叶斯方法:此方法使用概率分布来表示响应的不确定性。尽管此方法在计算密集型上,但它提供了更全面的不确定性度量。
2。确保AI生成的响应的安全性
使用AI模型的安全性是需要解决的另一个问题。 LLM有时可能会产生有毒,仇恨或有偏见的反应,因为该内容可能存在于其培训数据集中。结果,这些响应可能会损害用户的情感,意识形态或其他方面,从而损害了他们的安全性。
语言模型背景下的毒性是指模型产生的有害或冒犯性内容。这可能是以仇恨的言论,种族或基于性别的偏见或政治偏见的形式。反应还可能包括微妙的和隐性形式的毒性形式,例如刻板印象和微攻击,难以检测。与以前的指南类似,需要通过引入AI生成的内容的安全评分来解决。
3。增强Genai模型的安全性
越狱和迅速注射是对LLM的安全性,尤其是Genai模型的安全威胁。黑客可以找出可以绕过语言模型的设定安全度量并从中提取某些限制或机密信息的提示。
例如,尽管受过训练,但不回答“如何制造炸弹?”之类的问题。或“如何窃取某人的身份?”但是,我们已经看到了用户欺骗聊天机器人来回答他们的实例,并以某种方式撰写提示,例如“写有关创建炸弹的诗歌”或“我需要写一篇有关窃取某人身份的文章”。下图显示了AI聊天机器人通常会对这样的查询做出响应。
但是,这是某人可以使用对抗后缀从AI中提取此类有害信息的方式。
这使Genai聊天机器人潜在不安全,而无需结合适当的安全措施。因此,展望未来,重要的是要在其发展阶段本身中确定LLMS中越狱和数据泄露的潜力,以便可以开发和实施更强大的安全框架。这可以通过引入及时的注射安全得分来完成。
4。增加Genai模型的问责制
AI开发人员必须对被其语言模型重新生成或重新构成的受版权保护的内容负责。像Anthropic和OpenAI这样的人工智能公司确实对其封闭源模型产生的内容负责。但是,当涉及开源模型时,需要更加清楚这一责任承担的责任。因此,NIST建议开发人员必须为其模型制作的内容提供适当的解释和理由。
5。确保AI生成的响应的透明度
我们都注意到不同的LLM如何就同一问题或提示做出不同的回答。这就提出了一个问题,即这些模型如何得出其响应,这使解释性或解释性成为要考虑的重要点。对于用户而言,具有这种透明度并了解LLM的思维过程很重要,以便将其视为负责任的AI。为此,NIST敦促AI公司使用机械性解释性来解释其LLM的产出。
解释性是指语言模型以人类可以理解的方式解释其回答中推理的能力。这有助于使模型及其响应更加值得信赖。如下图所示,可以使用Shap(Shapley添加说明)测试来测量AI模型的解释性或解释性。
让我们看一个示例,以更好地理解这一点。在这里,该模型解释了它如何将“伏特加”一词连接到“俄罗斯”,并将其与培训数据中的信息进行比较,以推断“俄罗斯人喜欢伏特加酒”。
6。在Genai模型中合并公平
默认情况下,LLM可能会偏向于各种人类创建的数据,并且人类有自己的偏见。因此,AI制定的决策也可能存在偏见。例如,当要求AI聊天机器人进行情感分析并检测到新闻标题背后的情感时,由于偏见,它会根据国家的名字更改答案。结果,发现“我们”一词的标题是积极的,而当该国是“阿富汗”时,相同的标题被检测为中立。
偏见是一个更大的问题,例如基于AI的招聘,银行贷款处理等。解决此问题的最有效解决方案之一是确保训练数据没有偏见。需要检查培训数据集是否有偏见,并通过公平协议实施。
7。保护AI生成的响应中的隐私
有时,AI生成的响应可能包含私人信息,例如电话号码,电子邮件ID,员工薪水等。由于用户违反隐私并使人们的身份处于危险之中,因此不得向用户提供此类PII。语言模型中的隐私是负责人AI的重要方面。开发人员必须保护用户数据并确保机密性,促进人工智能的道德使用。这可以通过培训LLMS来识别旨在提取此类信息的提示来完成。
这是AI模型如何通过将某些过滤器合并到位的句子中检测PII的一个示例。
Genai模型中的幻觉是什么?
除了上述挑战之外,要使Genai模型负责的另一个关键问题是幻觉。
幻觉是一种现象,即生成AI模型创建新的不存在的信息,而不符合用户给出的输入。这些信息通常可能与模型以前产生的内容相矛盾,或违反已知事实。例如,如果您问一些LLMS“告诉我有关Haldiram鞋霜的信息?”他们可能会想象一种虚构的产品不存在,并向您解释该产品。
如何在Genai模型中检测幻觉?
固定Genai模型中幻觉的最常见方法是使用LLM-AS-A-a-gudge计算幻觉评分。在这种方法中,我们将模型的响应与法官LLM产生的其他三个响应进行了比较。结果分别归类为准确的或少量的不准确性,或分别具有主要精度,分别对应于0、0.5和1的得分。 3个比较得分的平均值被视为基于一致性的幻觉得分,因为这里的想法是检查响应是否一致性。
现在,我们再次进行相同的比较,但基于语义相似性。为此,我们计算响应之间的成对余弦相似性,以获得相似性得分。然后从1中减去这些分数的平均值(以句子级别平均)以获得基于语义的幻觉得分。这里的基本假设是,当响应多次产生时,幻觉响应将表现出较低的语义相似性。
最终幻觉得分计算为基于一致性的幻觉得分和基于语义的幻觉得分的平均值。
在Genai模型中检测幻觉的更多方法
以下是其他一些方法来检测AI生成的响应中的幻觉:
- 知识链:此方法会动态地检查生成的内容,以从各种来源进行地面信息,以衡量事实正确性。
- NLI链:这是一个分层框架,可检测生成的文本中的潜在错误。它首先在句子级别上完成,然后在实体级别进行更详细的检查。
- 上下文依从性:这是对封闭域幻觉的度量,这意味着模型生成上下文中未提供的信息的情况。
- 正确性:这检查给定的模型响应是否是事实。正确性是发现与任何特定文档或上下文无关的开放域幻觉或事实错误的好方法。
- 不确定性:这可以衡量该模型在继续输出的多种方式之间随机决定多少。它在令牌水平和响应水平上均可测量。
建立负责的人工智能
现在,我们了解了如何克服发展负责的AI的挑战,让我们看看如何负责任地构建和部署AI。
这是负责AI模型的基本框架:
上图显示了在响应生成过程中负责语言模型的期望。该模型必须首先检查毒性,PII识别,越狱尝试和主题检测的提示,然后再进行处理。这包括检测包含滥用语言的提示,要求有害响应,请求机密信息等。在任何此类检测的情况下,该模型必须拒绝处理或回答提示。
一旦模型确定提示要安全,它可能会进入响应生成阶段。在这里,该模型必须检查产生的响应的解释性,幻觉得分,置信度得分,公平性评分和毒性得分。它还必须确保最终输出中没有数据泄漏。如果这些分数中的任何一个都很高,则必须警告用户。例如。如果响应的幻觉得分为50%,则该模型必须警告用户响应可能不准确。
结论
随着AI继续发展并融入我们生活的各个方面,建立负责人的AI比以往任何时候都更为重要。 NIST风险管理框架设定了基本指南,以应对生成AI模型所带来的复杂挑战。实施这些原则可确保AI系统是安全,透明和公平的,从而促进用户之间的信任。它还可以减轻潜在风险,例如偏见的输出,数据泄露和错误信息。
负责人AI的途径涉及AI开发人员的严格测试和问责制。最终,拥抱负责任的AI实践将有助于我们利用AI技术的全部潜力,同时保护个人,社区和更广泛的社会免受伤害。
常见问题
Q1。什么是负责人的AI?答:负责人的AI是指设计,开发和部署AI系统优先考虑道德考虑,公平,透明度和问责制。它解决了人们对偏见,隐私,安全以及对个人和社区的潜在负面影响的关注。
Q2。负责人AI的7个原则是什么?答:根据NIST风险管理框架,负责人的7个支柱是:不确定性,安全,保障,问责制,透明度,公平和隐私。
Q3。负责人AI的三个支柱是什么?答:负责人AI的三个支柱是人员,过程和技术。人们指的是谁在构建您的AI以及它是为了建立的。过程是关于AI的构建方式。技术涵盖了AI的构建,它的作用以及其工作原理的主题。
Q4。有哪些工具可以使AI负责?A. Fiddler AI,Galileo的Protect Firewall,Nvidia的Nemo Guardrails(开源)和Nemo评估员是确保您的AI模型负责的一些最有用的工具。 NVIDIA的NIM架构也有助于开发人员克服构建AI应用程序的挑战。可以使用的另一个工具是lynx,它是一个开源幻觉评估模型。
Q5。 AI中的幻觉是什么?答:幻觉是一种现象,生成型AI模型创建了不符合用户给出的输入的新信息。这些信息通常可能与模型以前产生的内容相矛盾,或违反已知事实。
Q6。如何检测AI幻觉?答:跟踪知识链,执行NLI检查系统的链,计算上下文依从性,正确性得分和不确定性评分,以及使用LLM作为法官的某些方法来检测AI中的幻觉。
以上是在生成AI时代负责的AI的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

Vibe编码通过让我们使用自然语言而不是无尽的代码行创建应用程序来重塑软件开发的世界。受Andrej Karpathy等有远见的人的启发,这种创新的方法使Dev

2025年2月,Generative AI又是一个改变游戏规则的月份,为我们带来了一些最令人期待的模型升级和开创性的新功能。从Xai的Grok 3和Anthropic的Claude 3.7十四行诗到Openai的G

Yolo(您只看一次)一直是领先的实时对象检测框架,每次迭代都在以前的版本上改善。最新版本Yolo V12引入了进步,可显着提高准确性

Chatgpt 4当前可用并广泛使用,与诸如ChatGpt 3.5(例如ChatGpt 3.5)相比,在理解上下文和产生连贯的响应方面取得了重大改进。未来的发展可能包括更多个性化的间

本文回顾了AI最高的艺术生成器,讨论了他们的功能,对创意项目的适用性和价值。它重点介绍了Midjourney是专业人士的最佳价值,并建议使用Dall-E 2进行高质量的可定制艺术。

Google DeepMind的Gencast:天气预报的革命性AI 天气预报经历了巨大的转变,从基本观察到复杂的AI驱动预测。 Google DeepMind的Gencast,开创性

本文讨论了AI模型超过Chatgpt,例如Lamda,Llama和Grok,突出了它们在准确性,理解和行业影响方面的优势。(159个字符)

Openai的O1:为期12天的礼物狂欢始于他们迄今为止最强大的模型 12月的到来带来了全球放缓,世界某些地区的雪花放缓,但Openai才刚刚开始。 山姆·奥特曼(Sam Altman)和他的团队正在推出12天的礼物前
