目录
无模型的强化学习
基于模型的强化学习
基于模型 VS 无模型
多种学习模式
参考资料:
首页 科技周边 人工智能 从老鼠在迷宫中行走到AlphaGo战胜人类,强化学习的发展历程

从老鼠在迷宫中行走到AlphaGo战胜人类,强化学习的发展历程

May 09, 2023 pm 09:49 PM
ai 强化学习 基于模型

​谈到强化学习,很多研究人员的肾上腺素便不受控制地飙升!它在游戏AI系统、现代机器人、芯片设计系统和其他应用中发挥着十分重要的作用。 

强化学习算法有很多不同的类型,但主要分为两类:「基于模型的」和「无模型的」。 

在与TechTalks的对话中,神经科学家、 「智能的诞生」一书的作者Daeyeol Lee分别讨论了人类和动物强化学习的不同模式、人工智能和自然智能,以及未来的研究方向。​ 

强化学习的起源:从老鼠走迷宫到AlphaGo战胜人类

无模型的强化学习

19世纪后期,心理学家Edward Thorndike提出的「效应定律」成为了无模型强化学习的基础。 Thorndike提出,在特定情境中具有积极影响的行为,在该情境中更有可能再次发生,而产生负面影响的行为则不太可能再发生。

Thorndike在一个实验中探索了这一「效应定律」。 他把一只猫放在一个迷宫盒子中,并测量猫从盒中逃脱所需的时间。为了逃脱,猫必须操作一系列小工具,如绳子和杠杆。Thorndike观察到,当猫与谜盒互动时,它学会了有助于逃跑的行为。随着时间的推移,猫逃离盒子的速度越来越快。 Thorndike的结论是,猫可以从其行为提供的奖励和惩罚中进行学习。 「效应定律」后来为行为主义铺平了道路。行为主义是心理学的一个分支,试图从刺激和反应的角度来解释人类和动物的行为。 「效应定律」也是无模型强化学习的基础。在无模型强化学习中,通过主体感知世界,然后采取行动,同时衡量奖励。 

在无模型强化学习中,并不存在直接的知识或世界模型。RL代理必须通过反复试验,直接去体验每个动作的结果。 

基于模型的强化学习

Thorndike的「效应定律」一直流行到20世纪30年代。当时另一位心理学家Edward Tolman在探索老鼠如何快速学会走迷宫时发现了一个重要的见解。在他的实验中,Tolman意识到动物可以在没有强化的情况下了解他们的环境。 

例如,当一只老鼠在迷宫中被放出来时,它会自由地探索隧道,并逐渐了解环境的结构。如果随后将这只老鼠重新放进相同的环境,并提供强化信号,如寻找食物或寻找出口,那么它可以比没有探索过迷宫的动物更快地到达目标。 Tolman称之为「潜在学习」,这成为基于模型的强化学习的基础。 「潜在学习」使动物和人类对他们的世界形成一种心理表征,在他们的头脑中模拟假设的场景,并预测结果。

强化学习的起源:从老鼠走迷宫到AlphaGo战胜人类

 基于模型的强化学习的优点是它消除了agent在环境中进行试错的需要。 值得强调的一点是:基于模型的强化学习在开发能够掌握国际象棋和围棋等棋盘游戏的人工智能系统方面尤其成功,可能的原因是这些游戏的环境是确定的。 

强化学习的起源:从老鼠走迷宫到AlphaGo战胜人类

基于模型 VS 无模型

 通常来说,基于模型的强化学习会非常耗时,在对时间极度敏感的时候,可能会发生致命的危险。 Lee说:「在计算上,基于模型的强化学习要复杂得多。首先你必须获得模型,进行心理模拟,然后你必须找到神经过程的轨迹,再采取行动。不过,基于模型的强化学习不一定就比无模型的RL复杂。」 当环境十分复杂时,倘若可以用一个相对简单的模型(该模型可以快速获得)进行建模,那么模拟就会简单得多,而且具有成本效益。​ 

多种学习模式

其实,无论是基于模型的强化学习还是无模型的强化学习都不是一个完美的解决方案。无论你在哪里看到一个强化学习系统解决一个复杂的问题,它都有可能是同时使用基于模型和无模型的强化学习,甚至可能更多形式的学习。 神经科学的研究表明,人类和动物都有多种学习方式,而大脑在任何特定时刻都在这些模式之间不断切换。 ​最近几年,人们对创造结合多种强化学习模式的人工智能系统越来越感兴趣。 加州大学圣地亚哥分校的科学家最近的研究表明,将无模型强化学习和基于模型的强化学习结合起来,可以在控制任务中取得卓越的表现。 Lee表示:「如果你看看像AlphaGo这样复杂的算法,它既有无模型的RL元素,也有基于模型的RL元素,它根据棋盘配置学习状态值,这基本上是无模型的 RL,但它同时也进行基于模型的前向搜索。」 

尽管取得了显著的成就,强化学习的进展仍然缓慢。一旦RL模型面临复杂且不可预测的环境,其性能就会开始下降。​

Lee说:「我认为我们的大脑是一个学习算法的复杂世界,它们已经进化到可以处理许多不同的情况。」 

除了在这些学习模式之间不断切换之外,大脑还设法一直保持和更新它们,即使是在它们没有积极参与决策的情况下。 

心理学家Daniel Kahneman表示:「维护不同的学习模块并同时更新它们是有助于提高人工智能系统的效率和准确性。」 

我们还需要清楚另一件事——如何在AI系统中应用正确的归纳偏置,以确保它们以具有成本效益的方式学习正确的东西。 数十亿年的进化为人类和动物提供了有效学习所需的归纳偏置,同时使用尽可能少的数据。 归纳偏置可以理解为,从现实生活观察到的现象中,总结出规则,然后对模型做一定的约束,从而可以起到模型选择的作用,即从假设空间中选择出更符合现实规则的模型。 Lee说:「我们从环境中获得的信息非常少。使用这些信息,我们必须进行概括。原因是大脑存在归纳偏置,并且存在可以从一小组示例中概括出来的偏置。这是进化的产物,越来越多的神经科学家对此感兴趣。」 然而,虽然归纳偏置在物体识别任务中很容易理解,但在构建社会关系等抽象问题中就变得晦涩难懂。 未来,需要我们了解的还有很多~~~​

参考资料:

https://thenextweb.com/news/everything-you-need-to-know-about-model-free-and-model-based-reinforcement-learning​

以上是从老鼠在迷宫中行走到AlphaGo战胜人类,强化学习的发展历程的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌
威尔R.E.P.O.有交叉游戏吗?
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

centos关机命令行 centos关机命令行 Apr 14, 2025 pm 09:12 PM

CentOS 关机命令为 shutdown,语法为 shutdown [选项] 时间 [信息]。选项包括:-h 立即停止系统;-P 关机后关电源;-r 重新启动;-t 等待时间。时间可指定为立即 (now)、分钟数 ( minutes) 或特定时间 (hh:mm)。可添加信息在系统消息中显示。

CentOS上GitLab的备份方法有哪些 CentOS上GitLab的备份方法有哪些 Apr 14, 2025 pm 05:33 PM

CentOS系统下GitLab的备份与恢复策略为了保障数据安全和可恢复性,CentOS上的GitLab提供了多种备份方法。本文将详细介绍几种常见的备份方法、配置参数以及恢复流程,帮助您建立完善的GitLab备份与恢复策略。一、手动备份利用gitlab-rakegitlab:backup:create命令即可执行手动备份。此命令会备份GitLab仓库、数据库、用户、用户组、密钥和权限等关键信息。默认备份文件存储于/var/opt/gitlab/backups目录,您可通过修改/etc/gitlab

如何检查CentOS HDFS配置 如何检查CentOS HDFS配置 Apr 14, 2025 pm 07:21 PM

检查CentOS系统中HDFS配置的完整指南本文将指导您如何有效地检查CentOS系统上HDFS的配置和运行状态。以下步骤将帮助您全面了解HDFS的设置和运行情况。验证Hadoop环境变量:首先,确认Hadoop环境变量已正确设置。在终端执行以下命令,验证Hadoop是否已正确安装并配置:hadoopversion检查HDFS配置文件:HDFS的核心配置文件位于/etc/hadoop/conf/目录下,其中core-site.xml和hdfs-site.xml至关重要。使用

CentOS上PyTorch的GPU支持情况如何 CentOS上PyTorch的GPU支持情况如何 Apr 14, 2025 pm 06:48 PM

在CentOS系统上启用PyTorchGPU加速,需要安装CUDA、cuDNN以及PyTorch的GPU版本。以下步骤将引导您完成这一过程:CUDA和cuDNN安装确定CUDA版本兼容性:使用nvidia-smi命令查看您的NVIDIA显卡支持的CUDA版本。例如,您的MX450显卡可能支持CUDA11.1或更高版本。下载并安装CUDAToolkit:访问NVIDIACUDAToolkit官网,根据您显卡支持的最高CUDA版本下载并安装相应的版本。安装cuDNN库:前

docker原理详解 docker原理详解 Apr 14, 2025 pm 11:57 PM

Docker利用Linux内核特性,提供高效、隔离的应用运行环境。其工作原理如下:1. 镜像作为只读模板,包含运行应用所需的一切;2. 联合文件系统(UnionFS)层叠多个文件系统,只存储差异部分,节省空间并加快速度;3. 守护进程管理镜像和容器,客户端用于交互;4. Namespaces和cgroups实现容器隔离和资源限制;5. 多种网络模式支持容器互联。理解这些核心概念,才能更好地利用Docker。

centos安装mysql centos安装mysql Apr 14, 2025 pm 08:09 PM

在 CentOS 上安装 MySQL 涉及以下步骤:添加合适的 MySQL yum 源。执行 yum install mysql-server 命令以安装 MySQL 服务器。使用 mysql_secure_installation 命令进行安全设置,例如设置 root 用户密码。根据需要自定义 MySQL 配置文件。调整 MySQL 参数和优化数据库以提升性能。

centos8重启ssh centos8重启ssh Apr 14, 2025 pm 09:00 PM

重启 SSH 服务的命令为:systemctl restart sshd。步骤详解:1. 访问终端并连接到服务器;2. 输入命令:systemctl restart sshd;3. 验证服务状态:systemctl status sshd。

CentOS上PyTorch的分布式训练如何操作 CentOS上PyTorch的分布式训练如何操作 Apr 14, 2025 pm 06:36 PM

在CentOS系统上进行PyTorch分布式训练,需要按照以下步骤操作:PyTorch安装:前提是CentOS系统已安装Python和pip。根据您的CUDA版本,从PyTorch官网获取合适的安装命令。对于仅需CPU的训练,可以使用以下命令:pipinstalltorchtorchvisiontorchaudio如需GPU支持,请确保已安装对应版本的CUDA和cuDNN,并使用相应的PyTorch版本进行安装。分布式环境配置:分布式训练通常需要多台机器或单机多GPU。所

See all articles