目录
Anthropic目前的安全研究
机制可解释性
可扩展的监督
学习过程,而不是实现结果
了解泛化
危险故障模式的测试
社会影响和评估
结语
首页 科技周边 人工智能 谷歌砸了4亿刀的Anthrophic:AI模型训练计算量5年增加1000倍!

谷歌砸了4亿刀的Anthrophic:AI模型训练计算量5年增加1000倍!

Apr 11, 2023 pm 07:27 PM
人工智能 训练

自从发现缩放定律以来,人们认为人工智能的发展会像坐火箭一样迅速。

2019年的时候,多模态、逻辑推理、学习速度、跨任务转移学习和长期记忆还是会有减缓或停止人工智能进展的 「墙」。在此后的几年里,多模态和逻辑推理的「墙」都已经倒下了。

鉴于此,大多数人已经越来越相信,人工智能的快速进展将继续下去,而不是停滞不前或趋于平稳。

现在,人工智能系统在大量任务上的表现已经接近人类水平,而且训练这些系统的成本远远低于哈勃太空望远镜、大型强子对撞机这类「大科学」项目,所以说,AI未来的发展潜力巨大。

不过随之发展所带来的的安全隐患问题也越来越凸显。

对于人工智能的安全问题,Anthropic分析了三种可能性:

图片

乐观情况下,先进的人工智能因安全故障而产生灾难性风险的可能性非常小。已经开发的安全技术,如从人类反馈中强化学习(RLHF)和宪法人工智能(CAI),已经基本上足以应对风险。

主要风险是故意滥用,以及由广泛的自动化和国际权力动态的转变等导致的潜在危害,这将需要人工智能实验室和第三方,如学术界和民间社会机构,进行大量的研究,来帮助政策制定者驾驭高级人工智能带来的一些潜在的结构性风险。

不好也不坏的情况下,灾难性的风险是先进的人工智能发展的一个可能甚至是合理的结果,我们需要大量的科学和工程努力来避免这些风险,例如通过Anthropic所提供的「组合拳」,我们就能规避风险。

图片

Anthropic目前的安全研究

Anthropic目前正在各种不同的方向上工作,主要分为三个领域:AI在写作、图像处理或生成、游戏等方面的能力;开发新的算法来训练人工智能系统的对齐能力;评估和理解人工智能系统是否真的对齐、效果如何,以及其应用能力。

Anthropic开展了以下这些项目,来研究如何训练安全的人工智能。

机制可解释性

机制可解释性,即试图将神经网络逆向工程变成人类可以理解的算法,类似于人们对一个未知的、有可能不安全的计算机程序进行逆向工程。

Anthropic希望它可以使我们能够做一些类似于「代码审查」的事情,可以对模型进行审查、确定不安全的方面来提供强有力的安全保证。

这是一个非常困难的问题,但也不像看上去那样不可能。

一方面,语言模型是大型的、复杂的计算机程序( 「叠加」的现象会使事情变得更难)。另一方面,有迹象表明,这种方法比人们最初想象得更容易解决。而Anthropic已经成功地将这种方法扩展到小型语言模型,甚至发现了一种似乎可以驱动语境学习的机制,而且对于负责记忆的机制也更为了解。

Antropic的可解释性研究想要填补其他种类的排列组合科学所留下的空白。例如,他们认为可解释性研究可以产生的最有价值的东西之一,是识别一个模型是否是欺骗性对齐的能力。

在许多方面,技术一致性问题与检测人工智能模型的不良行为的问题密不可分。

如果在新情况下,也能稳健地检测出不良行为(例如通过 "阅读模型的思想"),那么我们就能够找到更好的方法来训练模型,不去表现出这些故障模式。

Anthropic相信,通过更好地了解神经网络和学习的详细工作原理,可以开发出更广泛的工具来追求安全。

可扩展的监督

将语言模型转化为统一的人工智能系统,需要大量的高质量反馈来引导它们的行为。主要是人类可能无法提供必要的准确反馈,来充分训练模型在广泛的环境中去避免有害的行为。

可能是人类会被人工智能系统愚弄,无法提供反映他们实际需求的反馈(例如,不小心为误导性建议提供了积极的反馈)。而且人类在规模上做不到这点,这就是可扩展的监督问题,也是训练安全、一致的人工智能系统的核心问题。

因此,Anthropic认为提供必要的监督的唯一方法,是让人工智能系统部分地监督自己或协助人类监督自己。以某种方式,将少量高质量的人类监督,放大为大量高质量的人工智能监督。

图片

这个想法已经通过RLHF和宪法人工智能等技术显示出了希望,语言模型已经在预训练中学习了很多关于人类价值观的知识,可以期待更大的模型对人类价值观有更准确的认识。

可扩展监督的另一个关键特征,特别是像CAI这样的技术,是允许自动进行红队(又称对抗性训练)。也就是说,他们可以自动向人工智能系统生成有潜在问题的输入,看看它们如何反应,然后自动训练它们以更诚实和无害的方式行事。

除了CAI,还有人类辅助监督、AI-AI辩论、多Agent RL的红队,以及创建模型生成的评估等多种可扩展的监督方法。通过这些方法,模型可以更好地理解人类的价值观,行为也会更符合人类价值观。以此,Anthropic可以训练出更强大的安全系统。

学习过程,而不是实现结果

学习一项新任务的一种方式是通过试错。如果知道所期望的最终结果是什么,就可以不断尝试新的策略,直到成功。Anthropic把这称为「以结果为导向的学习」。

在这个过程中,智能体的策略完全由期望的结果决定,将趋向于选择一些低成本的策略,让它实现这一目标。

更好的学习方式通常是让专家指导你,去了解他们获得成功的过程。在练习回合中,你的成功可能并不重要,重要的是,你可以专注于改进你的方法。

随着你的进步,你可能会与你的教练协商,去寻求新的策略,看看它是否对你更有效。这叫做「过程导向的学习」。在以过程为导向的学习中,最终的结果不是目的,掌握过程才是关键。

至少在概念层面上,许多对高级人工智能系统安全性的担忧,都可以通过以过程为导向的方式训练这些系统来解决。

人类专家将继续理解人工智能系统所遵循的各个步骤,而为了使这些过程得到鼓励,它们必须向人类说明理由。

人工智能系统不会因为以不可捉摸或有害的方式获得成功而得到奖励,因为它们将只能根据其过程的有效性和可理解性获得奖励。

这样它们就不会因为追求有问题的子目标(如资源获取或欺骗)而得到奖励,因为人类或其智能体会在训练过程中为它的获取过程提供负面反馈。

Anthropic认为以「过程为导向的学习」可能是训练安全和透明系统的最有希望的途径,也是最简单的方法。

了解泛化

机制性的可解释性工作对神经网络所进行的计算进行了反向工程。Anthropic还试图对大型语言模型(LLM)的训练程序有一个更详细的了解。

LLMs已经展示了各种令人惊讶的新行为,从惊人的创造力到自我保护到欺骗。所有这些行为都来自于训练数据,但过程很复杂:

模型首先在大量的原始文本上进行「预训练」,从中学习广泛的表征,模拟不同智能体的能力。然后,它们以各种方式进行微调,其中一些可能会产生令人惊讶的后果。

由于微调阶段过度参数化,学习到的模型在很大程度上取决于预训练的隐性偏见,而这种隐性偏见来自于在世界大部分知识的预训练中建立的复杂的表征网络。

当一个模型的行为令人担忧时,例如当它扮演一个具有欺骗性的人工智能时,它是否只是对近乎相同的训练序列进行无害的「反刍」?还是说这种行为(甚至是会导致这种行为的信念和价值观)已经成为模型对人工智能助手概念的一个组成部分,以至于他们在不同的环境下都会应用这种概念?

Anthropic正在研究一种技术,尝试将模型的输出追溯回训练数据,以此来找出可以帮助理解这种行为的重要线索。

危险故障模式的测试

一个关键的问题是,先进的人工智能可能会发展出有害的突发行为,例如欺骗或战略规划能力,而这些行为在较小和能力较弱的系统中是不存在的。

在这种问题成为直接威胁之前,Anthropic认为能够预测它的方法就是建立环境。所以,他们故意将这些属性训练到小规模的模型中。因为这些模型的能力还不足以构成危险,这样就可以隔离和研究它们。

Anthropic对人工智能系统在「情境意识」下的行为特别感兴趣——例如,当它们意识到自己是一个在训练环境中与人类交谈的人工智能时,这会如何影响它们在训练期间的行为?人工智能系统是否会变得具有欺骗性,或者发展出令人惊讶的不理想的目标?

在理想的情况下,他们想要建立详细的量化模型,说明这些倾向是如何随规模变化的,这样就能提前预测到突然出现的危险故障模式。

同时,Anthropic也关注与研究本身相关的风险:

如果研究是在较小的模型上进行,不可能有严重的风险;如果在能力更强的大型模型上进行,就会有明显的风险。因此,Anthropic不打算在能够造成严重伤害的模型上进行这种研究。

社会影响和评估

Anthropic研究的一个关键支柱,是通过建立工具、测量,批判性地评估和理解人工智能系统的能力、限制和潜在的社会影响其潜在的社会影响。

例如,Anthropic已经发表了分析大型语言模型可预测性的研究,他们研究了这些模型的高级可预测性和不可预测性,并分析这种属性会如何导致有害行为。

在这项工作中,他们研究了红队语言模型的方法,通过探测模型在不同模型规模下的输出来发现并减少危害。最近,他们又发现目前的语言模型可以遵循指令,减少偏见和成见。

Anthropic非常关注人工智能系统的快速应用将如何在短期、中期和长期内影响社会。

通过对人工智能今天的影响进行严格的研究,他们旨在为政策制定者和研究人员提供他们需要的论据和工具,来帮助减轻潜在的重大社会危机,确保人工智能的好处可以惠及人们。

结语

人工智能会在未来十年内,对世界产生前所未有的影响。计算能力的指数级增长和人工智能能力的可预测改进表明,未来的技术要比如今的先进得多。

然而,如何确保这些强大的系统与人类价值观紧密结合,我们对此还没有一个扎实的理解,因此也无法保证将灾难性故障的风险降到最小。所以,我们要时时刻刻为不太乐观的情况做好准备。

通过多个角度的经验研究,Anthropic所提供的安全工作「组合拳」,似乎可以帮助我们解决人工智能的安全问题。

Anthropic提出的这些安全建议告诉我们:

「要提高我们对人工智能系统如何学习和推广到现实世界的理解,开发可扩展的人工智能系统监督和审查技术,创建透明和可解释的人工智能系统,培训人工智能系统遵循安全流程而不是追求结果,分析人工智能的潜在危险故障模式以及如何预防它们, 评估人工智能的社会影响,以指导政策和研究等等。」

对于人工智能的完美防御之法,我们还处于摸索阶段,不过Anthropic很好地为大家指明了前路。

以上是谷歌砸了4亿刀的Anthrophic:AI模型训练计算量5年增加1000倍!的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
4 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

字节跳动剪映推出 SVIP 超级会员:连续包年 499 元,提供多种 AI 功能 字节跳动剪映推出 SVIP 超级会员:连续包年 499 元,提供多种 AI 功能 Jun 28, 2024 am 03:51 AM

本站6月27日消息,剪映是由字节跳动旗下脸萌科技开发的一款视频剪辑软件,依托于抖音平台且基本面向该平台用户制作短视频内容,并兼容iOS、安卓、Windows、MacOS等操作系统。剪映官方宣布会员体系升级,推出全新SVIP,包含多种AI黑科技,例如智能翻译、智能划重点、智能包装、数字人合成等。价格方面,剪映SVIP月费79元,年费599元(本站注:折合每月49.9元),连续包月则为59元每月,连续包年为499元每年(折合每月41.6元)。此外,剪映官方还表示,为提升用户体验,向已订阅了原版VIP

使用Rag和Sem-Rag提供上下文增强AI编码助手 使用Rag和Sem-Rag提供上下文增强AI编码助手 Jun 10, 2024 am 11:08 AM

通过将检索增强生成和语义记忆纳入AI编码助手,提升开发人员的生产力、效率和准确性。译自EnhancingAICodingAssistantswithContextUsingRAGandSEM-RAG,作者JanakiramMSV。虽然基本AI编程助手自然有帮助,但由于依赖对软件语言和编写软件最常见模式的总体理解,因此常常无法提供最相关和正确的代码建议。这些编码助手生成的代码适合解决他们负责解决的问题,但通常不符合各个团队的编码标准、惯例和风格。这通常会导致需要修改或完善其建议,以便将代码接受到应

七个很酷的GenAI & LLM技术性面试问题 七个很酷的GenAI & LLM技术性面试问题 Jun 07, 2024 am 10:06 AM

想了解更多AIGC的内容,请访问:51CTOAI.x社区https://www.51cto.com/aigc/译者|晶颜审校|重楼不同于互联网上随处可见的传统问题库,这些问题需要跳出常规思维。大语言模型(LLM)在数据科学、生成式人工智能(GenAI)和人工智能领域越来越重要。这些复杂的算法提升了人类的技能,并在诸多行业中推动了效率和创新性的提升,成为企业保持竞争力的关键。LLM的应用范围非常广泛,它可以用于自然语言处理、文本生成、语音识别和推荐系统等领域。通过学习大量的数据,LLM能够生成文本

微调真的能让LLM学到新东西吗:引入新知识可能让模型产生更多的幻觉 微调真的能让LLM学到新东西吗:引入新知识可能让模型产生更多的幻觉 Jun 11, 2024 pm 03:57 PM

大型语言模型(LLM)是在巨大的文本数据库上训练的,在那里它们获得了大量的实际知识。这些知识嵌入到它们的参数中,然后可以在需要时使用。这些模型的知识在训练结束时被“具体化”。在预训练结束时,模型实际上停止学习。对模型进行对齐或进行指令调优,让模型学习如何充分利用这些知识,以及如何更自然地响应用户的问题。但是有时模型知识是不够的,尽管模型可以通过RAG访问外部内容,但通过微调使用模型适应新的领域被认为是有益的。这种微调是使用人工标注者或其他llm创建的输入进行的,模型会遇到额外的实际知识并将其整合

快手版Sora「可灵」开放测试:生成超120s视频,更懂物理,复杂运动也能精准建模 快手版Sora「可灵」开放测试:生成超120s视频,更懂物理,复杂运动也能精准建模 Jun 11, 2024 am 09:51 AM

什么?疯狂动物城被国产AI搬进现实了?与视频一同曝光的,是一款名为「可灵」全新国产视频生成大模型。Sora利用了相似的技术路线,结合多项自研技术创新,生产的视频不仅运动幅度大且合理,还能模拟物理世界特性,具备强大的概念组合能力和想象力。数据上看,可灵支持生成长达2分钟的30fps的超长视频,分辨率高达1080p,且支持多种宽高比。另外再划个重点,可灵不是实验室放出的Demo或者视频结果演示,而是短视频领域头部玩家快手推出的产品级应用。而且主打一个务实,不开空头支票、发布即上线,可灵大模型已在快影

为大模型提供全新科学复杂问答基准与测评体系,UNSW、阿贡、芝加哥大学等多家机构联合推出SciQAG框架 为大模型提供全新科学复杂问答基准与测评体系,UNSW、阿贡、芝加哥大学等多家机构联合推出SciQAG框架 Jul 25, 2024 am 06:42 AM

编辑|ScienceAI问答(QA)数据集在推动自然语言处理(NLP)研究发挥着至关重要的作用。高质量QA数据集不仅可以用于微调模型,也可以有效评估大语言模型(LLM)的能力,尤其是针对科学知识的理解和推理能力。尽管当前已有许多科学QA数据集,涵盖了医学、化学、生物等领域,但这些数据集仍存在一些不足。其一,数据形式较为单一,大多数为多项选择题(multiple-choicequestions),它们易于进行评估,但限制了模型的答案选择范围,无法充分测试模型的科学问题解答能力。相比之下,开放式问答

你所不知道的机器学习五大学派 你所不知道的机器学习五大学派 Jun 05, 2024 pm 08:51 PM

机器学习是人工智能的重要分支,它赋予计算机从数据中学习的能力,并能够在无需明确编程的情况下改进自身能力。机器学习在各个领域都有着广泛的应用,从图像识别和自然语言处理到推荐系统和欺诈检测,它正在改变我们的生活方式。机器学习领域存在着多种不同的方法和理论,其中最具影响力的五种方法被称为“机器学习五大派”。这五大派分别为符号派、联结派、进化派、贝叶斯派和类推学派。1.符号学派符号学(Symbolism),又称为符号主义,强调利用符号进行逻辑推理和表达知识。该学派认为学习是一种逆向演绎的过程,通过已有的

AI初创集体跳槽OpenAI,Ilya出走后安全团队重整旗鼓! AI初创集体跳槽OpenAI,Ilya出走后安全团队重整旗鼓! Jun 08, 2024 pm 01:00 PM

上周,在内部的离职潮和外部的口诛笔伐之下,OpenAI可谓是内忧外患:-侵权寡姐引发全球热议-员工签署「霸王条款」被接连曝出-网友细数奥特曼「七宗罪」辟谣:根据Vox获取的泄露信息和文件,OpenAI的高级领导层,包括Altman在内,非常了解这些股权回收条款,并且签署了它们。除此之外,还有一个严峻而紧迫的问题摆在OpenAI面前——AI安全。最近,五名与安全相关的员工离职,其中包括两名最著名的员工,“超级对齐”团队的解散让OpenAI的安全问题再次被置于聚光灯下。《财富》杂志报道称,OpenA

See all articles