Transformers+世界模型,竟能拯救深度强化学习?
很多人都知道,当年打败李世石、柯洁等一众国际顶尖棋手的AlphaGo一共迭代了三个版本,分别是战胜李世石的一代目AlphaGo Lee、战胜柯洁的二代目AlphaGo Master,以及吊打前两代的三代目AlphaGo Zero。
AlphaGo的棋艺能够逐代递增,背后其实是在AI技术上一个出现了明显的变化趋势,就是强化学习的比重越来越大。
到了近几年,强化学习又发生了一次「进化」,人们把「进化」后的强化学习,称为深度强化学习。
但深度强化学习代理的样本效率低下,这极大地限制了它们在实际问题中的应用。
最近,许多基于模型的方法被设计来解决这个问题,在世界模型的想象中学习是最突出的方法之一。
然而,虽然与模拟环境几乎无限的交互听起来很吸引人,但世界模型必须在很长一段时间内保持准确。
受Transformer在序列建模任务中的成功启发,康奈尔大学的文森特·米凯利、埃洛伊·阿隆索、弗朗索瓦·弗勒雷介绍了IRIS,这是一种数据高效代理,它在由离散自编码器和自回归Transformer组成的世界模型中学习。
在Atari 100k基准测试中,在仅相当于两个小时的游戏时间里,IRIS的平均人类标准化得分为1.046,并且在26场比赛中的10场比赛中表现优于人类。
此前,LeCun曾说,强化学习会走进死胡同。
现在看来,康奈尔大学的文森特·米凯利、埃洛伊·阿隆索、弗朗索瓦·弗勒雷等人,正在将世界模型与强化学习(更准确地说是深度强化学习)融为一体,而连接两者的桥梁,便是Transformers。
深度强化学习有什么不一样
一提到人工智能技术,很多人能想到的,还是深度学习上。
其实,虽然深度学习还活跃在AI领域,但已经暴露出很多问题。
现在深度学习用得最多的就是有监督学习。有监督学习不妨理解成“有参考答案的学习”,它有一个特点,就是数据必须经过标识才能用于训练。但现在海量的数据是未标识数据,且标识成本很高。
以至于针对这种局面,有人调侃道「有多少人工,就有多少智能」。
很多研究人员,甚至包括有不少的大牛都在反思,琢磨深度学习是不是“错了”。
于是,强化学习开始崛起了。
强化学习和有监督学习、无监督学习都不太一样,它是用智能体不断地试错,并按试错结果奖惩AI。这是DeepMind家做各种棋牌AI、游戏AI的路数。这种路径的信徒认为,只要奖励激励设定对头,强化学习终将造出真正AGI。
但强化学习也有问题,用LeCun的话说,就是「强化学习要用巨量数据才能训练模型执行最简单任务」。
于是强化学习与深度学习进行了结合,成为深度强化学习。
深度强化学习,强化学习是骨架,深度学习是灵魂,这是什么意思呢?深度强化学习的主要运行机制,其实与强化学习是基本一致的,只不过使用了深度神经网络来完成这一过程。
更有甚者,有的深度强化学习算法,干脆直接在现成的强化学习算法上,通过添加深度神经网络来实现一套新的深度强化学习算法,非常有名的深度强化学习算法DQN就是典型的例子。
Transformers有什么神奇之处
Transformers首次亮相于2017年,是Google的论文《Attention is All You Need》中提出的。
在 Transformer出现之前,人工智能在语言任务上的进展一直落后于其他领域的发展。「在过去10年发生的这场深度学习革命中,自然语言处理在某种程度上是后来者,」马萨诸塞大学洛厄尔分校的计算机科学家Anna Rumshisky 说,「从某种意义上说,NLP曾落后于计算机视觉,而Transformer改变了这一点。」
近年来,Transformer机器学习模型已经成为深度学习和深度神经网络技术进步的主要亮点之一。它主要用于自然语言处理中的高级应用。谷歌正在使用它来增强其搜索引擎结果。
Transformer很快成为专注于分析和预测文本的单词识别等应用程序的引领者。它引发了一波工具浪潮,比如OpenAI的GPT-3可以在数千亿个单词上进行训练并生成连贯的新文本。
目前,Transformer架构不断发展并扩展到多种不同的变体,从语言任务扩展到其他领域。比如,Transformer已被用于时间序列预测,同时也是DeepMind的蛋白质结构预测模型 AlphaFold背后的关键创新。
Transformer最近也进入了计算机视觉领域,在许多复杂任务中它们正在慢慢取代卷积神经网络(CNN)。
世界模型与Transformers联手,其他人怎么看
对于康奈尔大学的研究成果,有外国网友评论道:「请注意,这两个小时是来自环境的镜头长度,在GPU上进行训练需要一周的时间」。
还有人质疑:所以这个系统在一个特别精确的潜在世界模型上学习?该模型不需要预先训练吗?
另外,有人觉得,康奈尔大学的文森特·米凯利等人的成果并没有破天荒的突破:「似乎他们只是训练了世界模型,vqvae和演员评论家,所有这些都来自那2个小时的经验(和大约600个纪元)的重播缓冲区」。
参考资料:https://www.reddit.com/r/MachineLearning/comments/x4e4jx/r_transformers_are_sample_efficient_world_models/
以上是Transformers+世界模型,竟能拯救深度强化学习?的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

热门话题

很多刚刚接触酷家乐软件的用户,不是很熟悉酷家乐如何自己建模?以下文章就为各位带来了酷家乐自己建模的操作步骤,让我们一起来看看吧。进入酷家乐平台,在酷家乐里,点击进入设计装修界面。在设计界面,点击左侧的行业库,在行业库里点击全屋硬装工具。在全屋硬装工具里,可以进行建模操作。

很多人都知道,当年打败李世石、柯洁等一众国际顶尖棋手的AlphaGo一共迭代了三个版本,分别是战胜李世石的一代目AlphaGoLee、战胜柯洁的二代目AlphaGoMaster,以及吊打前两代的三代目AlphaGoZero。AlphaGo的棋艺能够逐代递增,背后其实是在AI技术上一个出现了明显的变化趋势,就是强化学习的比重越来越大。到了近几年,强化学习又发生了一次「进化」,人们把「进化」后的强化学习,称为深度强化学习。但深度强化学习代理的样本效率低下,这极大地限制了它们在实际问题中的应用。最近

一键生成可玩游戏世界。问世才两个星期,谷歌的世界模型也来了,能力看起来更强大:它生成的虚拟世界「自主可控」。刚刚,谷歌定义了生成式AI的全新范式——生成式交互环境(Genie,GenerativeInteractiveEnvironments)。Genie是一个110亿参数的基础世界模型,可以通过单张图像提示生成可玩的交互式环境。我们可以用它从未见过的图像进行提示,然后与自己想象中的虚拟世界进行互动。不管是合成图像、照片甚至手绘草图,Genie都可以从中生成无穷无尽的可玩世界。Ge

随着互联网的普及,Web应用的需求越来越高。在过去,我们可能使用PHP、Java或Python等语言构建Web应用,但是随着新的技术的不断涌现,我们现在更多选择使用Golang构建Web应用。在Golang中,Iris是一款非常优秀的Web框架,它拥有着和其他主流Web框架一样的功能和使用便利性。在本文中,我们将探讨使用Iris框架构建Web应用的基础知识。

go语言建模库的官网有:1、GORM,简单但功能强大的ORM库;2、XORM,具有高性能和易用性;3、beego ORM,提供了简洁的API来处理数据库访问和数据映射;4、sqlx,轻量级的数据库工具库;5、gorp,提供了简单的API来处理数据的持久化和查询。

随着人工智能和机器学习技术的快速发展,深度学习已经成为人工智能领域的热门技术之一。Python作为一种易学易用的编程语言,已经成为了许多深度学习从业者的首选语言。本文将为大家介绍如何在Python中使用深度建模。1.安装和配置Python环境首先,我们需要安装Python和相关的深度学习库。目前,Python中最常用的深度学习库是TensorFlow和PyT

Numpy是Python中最常用的数学库之一,它集成了许多最佳的数学函数和操作。Numpy的使用非常广泛,包括统计、线性代数、图像处理、机器学习、神经网络等领域。在数据分析和建模方面,Numpy更是必不可少的工具之一。本文将分享Numpy常用的数学函数,以及使用这些函数实现数据分析和建模的示例代码。一、创建数组使用Numpy中array()函数可以创建一个数

最近一段时间,生成式AI技术兴起,众多造车新势力都在探索视觉语言模型与世界模型的新方法,端到端的智能驾驶新技术似乎成为了共同的研究方向。上个月,理想汽车发布了端到端+VLM视觉语言模型+世界模型的第三代自动驾驶技术架构。此架构已推送千人内测,将智能驾驶行为拟人化,提高了AI的信息处理效率,增强了对复杂路况的理解和应对能力。李想曾在公开的分享中表示,面对大部分算法难以识别和处理的罕见驾驶环境,VLM(VisualLanguageModel)即视觉语言模型可以系统地提升自动驾驶的能力,这种方法从理论
