首页 科技周边 人工智能 RNN效率媲美Transformer,谷歌新架构两连发:同等规模强于Mamba

RNN效率媲美Transformer,谷歌新架构两连发:同等规模强于Mamba

Aug 05, 2024 pm 02:20 PM
产业 mamba Griffin Hawk

去年 12 月,新架构 Mamba 引爆了 AI 圈,向屹立不倒的 Transformer 发起了挑战。如今,谷歌 DeepMind「Hawk 」和「Griffin 」的推出为 AI 圈提供了新的选择。


这一次,谷歌 DeepMind 在基础模型方面又有了新动作。

我们知道,循环神经网络(RNN)在深度学习和自然语言处理研究的早期发挥了核心作用,并在许多应用中取得了实功,包括谷歌第一个端到端机器翻译系统。不过近年来,深度学习和 NLP 都以 Transformer 架构为主,该架构融合了多层感知器(MLP)和多头注意力(MHA)。

Transformer 已经在实践中实现了比 RNN 更好的性能,并且在利用现代硬件方面也非常高效。基于 Transformer 的大语言模型在从网络收集的海量数据集上进行训练,取得了显着的成功。

纵然取得了很大的成功,但 Transformer 架构仍有不足之处,比如由于全局注意力的二次复杂性,Transformer 很难有效地扩展到长序列。此外,键值(KV)缓存随序列长度线性增长,导致 Transformer 在推理过程中变慢。这时,循环语言模型成为一种替代方案,它们可以将整个序列压缩为固定大小的隐藏状态,并迭代更新。但若想取代 Transformer,新的 RNN 模型不仅必须在扩展上表现出相当的性能,而且必须实现类似的硬件效率。

在谷歌DeepMind 近日的一篇论文中,研究者提出了RG-LRU 层,它是一种新颖的门控线性循环层,并围绕它设计了一个新的循环块来取代多查询注意力(MQA)。

他们使用该循环块构建了两个新的模型,一个是混合了MLP 和循环块的模型Hawk另一个是混合了MLP 与循环块、局部注意力的模型Griffin

RNN效率媲美Transformer,谷歌新架构两连发:同等规模强于Mamba

  • 论文标题:Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models
  • 论文链接:https://arxiv.org/pdf/2402.19427.pdf

研究者表示,Hawk 和Griffin 在held-out 损失和训练FLOPs 之间表现出了幂律缩放,最高可以达到7B 参数,正如之前在Transformers 中观察到的那样。其中 Griffin 在所有模型规模上实现了比强大 Transformer 基线略低的 held-out 损失。

RNN效率媲美Transformer,谷歌新架构两连发:同等规模强于Mamba

研究者针对一系列模型规模、在300B tokens 上对Hawk 和Griffin 进行了过度训练,结果显示,Hawk-3B 在下游任务的性能上超越了Mamba-3B,尽管训练的tokens 数量只有后者的一半。 Griffin-7B 和 Griffin-14B 的性能与 Llama-2 相当,尽管训练的 tokens 数量只有后者的 1/7。

此外,Hawk 和 Griffin 在 TPU-v3 上达到了与 Transformers 相当的训练效率。由于对角 RNN 层受内存限制,研究者使用了 RG-LRU 层的内核来实现这一点。

同时在推理过程中,Hawk 和 Griffin 都实现比 MQA Transformer 更高的吞吐量,并在采样长序列时实现更低的延迟。当评估的序列比训练中观察到的更长时,Griffin 的表现比 Transformers 更好,并且可以有效地从训练数据中学习复制和检索任务。不过当在未经微调的情况下在复制和精确检索任务上评估预训练模型时,Hawk 和 Griffin 的表现不如 Transformers。

共同一作、DeepMind 研究科学家 Aleksandar Botev 表示,混合了门控线性循环和局部注意力的模型 Griffin 保留了 RNN 的所有高效优势和 Transformer 的表达能力,最高可以扩展到 14B 参数规模。

RNN效率媲美Transformer,谷歌新架构两连发:同等规模强于Mamba                               来源:https://twitter.com/botev_mg/status/1763489634082795780

Architecture du modèle Griffin

Griffin Tous les modèles contiennent les composants suivants : (i) un bloc résiduel, (ii) un bloc MLP, (iii) un bloc de mélange temporel. (i) et (ii) sont les mêmes pour tous les modèles, mais il existe trois blocs de mélange temporel : l'attention multi-requêtes globale (MQA), le MQA local (fenêtre glissante) et le bloc récurrent proposé dans cet article. Dans le cadre du bloc récurrent, les chercheurs ont utilisé une unité récurrente linéaire vraiment fermée (RG-LRU), une nouvelle couche récurrente inspirée des unités récurrentes linéaires.

Comme le montre la figure 2(a), le bloc résiduel définit la structure globale du modèle Griffin, qui s'inspire du pré-normeTransformer. Après avoir intégré la séquence d'entrée, nous la passons à travers des blocs comme ? (? représente la profondeur du modèle), puis appliquons RMSNorm pour générer les activations finales. Pour calculer les probabilités des jetons, une dernière couche linéaire est appliquée, suivie de softmax. Les poids de cette couche sont partagés avec la couche d’intégration d’entrée.

RNN效率媲美Transformer,谷歌新架构两连发:同等规模强于Mamba

Modèle récurrent, efficacité de mise à l'échelle comparable à celle de Transformer

La recherche sur la mise à l'échelle fournit des informations importantes sur la manière d'ajuster les hyperparamètres du modèle et son comportement lors de la mise à l'échelle.

Les chercheurs ont défini les modèles évalués dans cette étude, ont fourni des courbes de mise à l'échelle jusqu'aux paramètres 7B et au-delà et ont évalué les performances du modèle sur les tâches en aval.

Ils ont considéré 3 familles de modèles : (1) baseline MQA-Transformer ; (2) Hawk : un modèle RNN pur (3) Griffin : un modèle hybride qui mélange des blocs récurrents avec une attention locale. Les hyperparamètres clés du modèle pour les modèles de différentes tailles sont définis à l'annexe C.

L'architecture Hawk utilise le même motif résiduel et le même bloc MLP que la ligne de base de Transformer, mais les chercheurs ont utilisé un bloc récurrent avec une couche RG-LRU comme bloc de mélange temporel au lieu de MQA. Ils ont élargi la largeur du bloc de boucle d'un facteur d'environ 4/3 (c'est-à-dire ?_??? ≈4?/3) pour correspondre à peu près au nombre de paramètres du bloc MHA lorsque les deux utilisent la même dimension de modèle ?.

Griffon. Le principal avantage des blocs récurrents par rapport à l'attention globale est qu'ils utilisent une taille d'état fixe pour résumer les séquences, alors que la taille du cache KV de MQA augmente proportionnellement à la longueur de la séquence. L'attention locale a les mêmes propriétés, et le mélange de blocs récurrents avec l'attention locale préserve cet avantage. Les chercheurs ont découvert que cette combinaison était extrêmement efficace, car l’attention locale peut modéliser avec précision le passé récent, tandis que les couches récurrentes peuvent transmettre des informations sur de longues séquences.

Griffin utilise le même modèle résiduel et les mêmes blocs MLP que la ligne de base de Transformer. Mais contrairement à la base de référence MQA Transformer et au modèle Hawk, Griffin utilise un mélange de blocs de boucle et de blocs MQA. Plus précisément, nous adoptons une structure hiérarchique qui alterne deux blocs résiduels avec un bloc récurrent puis un bloc d'attention local (MQA). Sauf indication contraire, la taille de la fenêtre d’attention locale est fixée à 1 024 jetons.

Les principaux résultats de mise à l'échelle sont présentés dans la figure 1 (a). Les trois familles de modèles ont été formées sur des tailles de modèle allant de 100 millions à 7 milliards de paramètres, bien que Griffin propose une version à 14 milliards de paramètres. Les résultats de l'évaluation de

sur les tâches en aval sont présentés dans le tableau 1 :

RNN效率媲美Transformer,谷歌新架构两连发:同等规模强于Mamba

Hawk et Griffin ont tous les deux très bien joué. Le tableau ci-dessus rend compte de la précision normalisée des fonctionnalités pour MMLU, HellaSwag, PIQA, ARC-E et ARC-C, tout en rapportant la précision absolue et les scores partiels pour WinoGrande. À mesure que la taille du modèle augmente, les performances de Hawk s'améliorent également de manière significative et Hawk-3B fonctionne mieux que Mamba-3B dans les tâches en aval, bien que le nombre de jetons qu'il entraîne ne soit que la moitié de celui de Mamba-3B. Griffin-3B fonctionne nettement mieux que Mamba-3B, et Griffin-7B et Griffin-14B ont des performances comparables à Llama-2, bien qu'ils soient entraînés avec près de 7 fois moins de jetons. Hawk est comparable à la référence MQA Transformer, tandis que Griffin la surpasse.

Entraînez efficacement le modèle de boucle côté appareil

Lors du développement et de l'extension du modèle, les chercheurs ont rencontré deux défis d'ingénierie majeurs. Tout d’abord, comment partager efficacement les modèles de traitement sur plusieurs appareils. Deuxièmement, comment mettre en œuvre efficacement des boucles linéaires pour maximiser l'efficacité de la formation TPU. Cet article aborde ces deux défis et fournit ensuite une comparaison empirique de la vitesse d'entraînement des lignes de base Griffin et MQA.

Les chercheurs ont comparé les vitesses d'entraînement de différentes tailles de modèles et longueurs de séquence pour étudier les avantages informatiques du modèle dans cet article pendant le processus d'entraînement. Le nombre total de jetons par lot reste fixe pour chaque taille de modèle, ce qui signifie qu'à mesure que la longueur de la séquence augmente, le nombre de séquences diminue proportionnellement.

La figure 3 représente la durée d'exécution relative du modèle Griffin par rapport au modèle de base MQA à 2048 longueurs de séquence.

RNN效率媲美Transformer,谷歌新架构两连发:同等规模强于Mamba

Vitesse d'inférence

L'inférence de LLM se compose de deux étapes. La phase de « pré-remplissage » consiste à recevoir et à traiter les invites. Cette étape effectue en fait une passe avant sur le modèle. Étant donné que les invites peuvent être traitées en parallèle tout au long de la séquence, la plupart des opérations de modèle à ce stade sont liées au calcul. Par conséquent, nous nous attendons à ce que la vitesse relative des transformateurs et des modèles de boucle dans l'étape de pré-remplissage soit la même que celles évoquées précédemment. pendant l’entraînement étaient similaires.

Après le pré-remplissage, vient l'étape de décodage, au cours de laquelle le chercheur extrait de manière autorégressive les jetons du modèle. Comme indiqué ci-dessous, en particulier pour les séquences plus longues, où le cache clé-valeur (KV) utilisé pour l'attention devient volumineux, le modèle récurrent a une latence plus faible et un débit plus élevé dans l'étape de décodage.

Il y a deux mesures principales à prendre en compte lors de l'évaluation de la vitesse d'inférence. Le premier est la latence, qui mesure le temps nécessaire pour générer un nombre spécifié de jetons pour une taille de lot spécifique. Le second est le débit, qui mesure le nombre maximum de jetons pouvant être générés par seconde lors de l'échantillonnage d'un nombre spécifié de jetons sur un seul appareil. Étant donné que le débit est calculé comme le nombre de jetons échantillonnés multiplié par la taille du lot divisé par la latence, vous pouvez augmenter le débit en réduisant la latence ou en réduisant l'utilisation de la mémoire pour utiliser une taille de lot plus grande sur l'appareil. La prise en compte de la latence est utile pour les applications temps réel qui nécessitent des temps de réponse rapides. Le débit mérite également d'être pris en compte car il nous indique le nombre maximum de jetons pouvant être échantillonnés à partir d'un modèle particulier dans un temps donné. Cette propriété est intéressante lorsque l'on considère d'autres applications linguistiques, telles que l'apprentissage par renforcement basé sur la rétroaction humaine (RLHF) ou la sortie d'un modèle de langage de notation (comme cela se fait dans AlphaCode), car être capable de générer un grand nombre de jetons dans un temps donné est une option intéressante. fonctionnalité.

Ici, les chercheurs ont étudié les résultats d'inférence du modèle avec le paramètre 1B. En termes de lignes de base, ils sont comparés au transformateur MQA, qui est nettement plus rapide lors de l'inférence que le transformateur MHA standard couramment utilisé dans la littérature. Les modèles comparés par les chercheurs sont : i) le convertisseur MQA, ii) Hawk et iii) Griffin. Pour comparer différents modèles, nous rapportons la latence et le débit.

Comme le montre la figure 4, les chercheurs ont comparé la latence du modèle avec une taille de lot de 16, un pré-remplissage vide et un pré-remplissage de 4096 jetons.

RNN效率媲美Transformer,谷歌新架构两连发:同等规模强于Mamba

La figure 1(b) compare le débit maximum (jetons/seconde) des mêmes modèles lors de l'échantillonnage de 512, 1024, 2048 et 4196 jetons respectivement après des indices vides.

Modélisation de contextes longs

Cet article explore également l'efficacité de Hawk et Griffin en utilisant des contextes plus longs pour améliorer les prédictions des prochains jetons et étudie leur capacité à extrapoler pendant l'inférence. Les performances de Griffin sur des tâches nécessitant des capacités de copie et de récupération sont également explorées, à la fois dans des modèles formés à de telles tâches et lorsque ces capacités sont testées à l'aide de modèles de langage pré-entraînés.

À partir du graphique sur le côté gauche de la figure 5, on peut observer que dans une certaine plage de longueur maximale, Hawk et Griffin peuvent tous deux améliorer la capacité de prédiction du prochain jeton dans un contexte plus long, et ils sont globalement capables pour déduire des séquences plus longues (au moins 4 fois) que lors de l'entraînement. Griffin, en particulier, fonctionne très bien en raisonnement même en utilisant RoPE dans la couche d'attention locale.

RNN效率媲美Transformer,谷歌新架构两连发:同等规模强于Mamba

Comme le montre la figure 6, dans la tâche de copie sélective, les 3 modèles peuvent parfaitement accomplir la tâche. En comparant la vitesse d'apprentissage sur cette tâche, Hawk est nettement plus lent que Transformer, ce qui est similaire aux observations de Jelassi et al (2024) qui ont constaté que Mamba apprenait beaucoup plus lentement sur une tâche similaire. Il est intéressant de noter que même si Griffin n'utilise qu'une couche d'attention locale, sa vitesse d'apprentissage est à peine ralentie et est comparable à celle de Transformer.

RNN效率媲美Transformer,谷歌新架构两连发:同等规模强于Mamba

Pour plus de détails, veuillez lire l'article original.

以上是RNN效率媲美Transformer,谷歌新架构两连发:同等规模强于Mamba的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

<🎜>:泡泡胶模拟器无穷大 - 如何获取和使用皇家钥匙
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系统,解释
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆树的耳语 - 如何解锁抓钩
3 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

热门话题

Java教程
1664
14
CakePHP 教程
1423
52
Laravel 教程
1321
25
PHP教程
1269
29
C# 教程
1249
24
DeepMind机器人打乒乓球,正手、反手溜到飞起,全胜人类初学者 DeepMind机器人打乒乓球,正手、反手溜到飞起,全胜人类初学者 Aug 09, 2024 pm 04:01 PM

但可能打不过公园里的老大爷?巴黎奥运会正在如火如荼地进行中,乒乓球项目备受关注。与此同时,机器人打乒乓球也取得了新突破。刚刚,DeepMind提出了第一个在竞技乒乓球比赛中达到人类业余选手水平的学习型机器人智能体。论文地址:https://arxiv.org/pdf/2408.03906DeepMind这个机器人打乒乓球什么水平呢?大概和人类业余选手不相上下:正手反手都会:对手采用多种打法,该机器人也能招架得住:接不同旋转的发球:不过,比赛激烈程度似乎不如公园老大爷对战。对机器人来说,乒乓球运动

首配机械爪!元萝卜亮相2024世界机器人大会,发布首个走进家庭的国际象棋机器人 首配机械爪!元萝卜亮相2024世界机器人大会,发布首个走进家庭的国际象棋机器人 Aug 21, 2024 pm 07:33 PM

8月21日,2024世界机器人大会在北京隆重召开。商汤科技旗下家用机器人品牌“元萝卜SenseRobot”家族全系产品集体亮相,并最新发布元萝卜AI下棋机器人——国际象棋专业版(以下简称“元萝卜国象机器人”),成为全球首个走进家庭的国际象棋机器人。作为元萝卜的第三款下棋机器人产品,全新的国象机器人在AI和工程机械方面进行了大量专项技术升级和创新,首次在家用机器人上实现了通过机械爪拾取立体棋子,并进行人机对弈、人人对弈、记谱复盘等功能,

Claude也变懒了!网友:学会给自己放假了 Claude也变懒了!网友:学会给自己放假了 Sep 02, 2024 pm 01:56 PM

开学将至,该收心的不止有即将开启新学期的同学,可能还有AI大模型。前段时间,Reddit上挤满了吐槽Claude越来越懒的网友。「它的水平下降了很多,经常停顿,甚至输出也变得很短。在发布的第一周,它可以一次性翻译整整4页文稿,现在连半页都输出不了了!」https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一个名为「对Claude彻底失望了的帖子里」,满满地

世界机器人大会上,这家承载「未来养老希望」的国产机器人被包围了 世界机器人大会上,这家承载「未来养老希望」的国产机器人被包围了 Aug 22, 2024 pm 10:35 PM

正在北京举行的世界机器人大会上,人形机器人的展示成为了现场绝对的焦点,在星尘智能的展台上,由于AI机器人助理S1在一个展区上演扬琴、武术、书法三台大戏,能文能武,吸引了大量专业观众和媒体的驻足。在带弹性的琴弦上的优雅演奏,让S1展现出速度、力度、精度兼具的精细操作和绝对掌控。央视新闻对「书法」背后的模仿学习和智能控制进行了专题报道,公司创始人来杰解释到,丝滑动作的背后,是硬件侧追求最好力控和最仿人身体指标(速度、负载等),而是在AI侧则采集人的真实动作数据,让机器人遇强则强,快速学习进化。而敏捷

ACL 2024奖项公布:华科大破译甲骨文最佳论文之一、GloVe时间检验奖 ACL 2024奖项公布:华科大破译甲骨文最佳论文之一、GloVe时间检验奖 Aug 15, 2024 pm 04:37 PM

本届ACL大会,投稿者「收获满满」。为期六天的ACL2024正在泰国曼谷举办。ACL是计算语言学和自然语言处理领域的顶级国际会议,由国际计算语言学协会组织,每年举办一次。一直以来,ACL在NLP领域的学术影响力都位列第一,它也是CCF-A类推荐会议。今年的ACL大会已是第62届,接收了400余篇NLP领域的前沿工作。昨天下午,大会公布了最佳论文等奖项。此次,最佳论文奖7篇(两篇未公开)、最佳主题论文奖1篇、杰出论文奖35篇。大会还评出了资源论文奖(ResourceAward)3篇、社会影响力奖(

李飞飞团队提出ReKep,让机器人具备空间智能,还能整合GPT-4o 李飞飞团队提出ReKep,让机器人具备空间智能,还能整合GPT-4o Sep 03, 2024 pm 05:18 PM

视觉与机器人学习的深度融合。当两只机器手丝滑地互相合作叠衣服、倒茶、将鞋子打包时,加上最近老上头条的1X人形机器人NEO,你可能会产生一种感觉:我们似乎开始进入机器人时代了。事实上,这些丝滑动作正是先进机器人技术+精妙框架设计+多模态大模型的产物。我们知道,有用的机器人往往需要与环境进行复杂精妙的交互,而环境则可被表示成空间域和时间域上的约束。举个例子,如果要让机器人倒茶,那么机器人首先需要抓住茶壶手柄并使之保持直立,不泼洒出茶水,然后平稳移动,一直到让壶口与杯口对齐,之后以一定角度倾斜茶壶。这

分布式人工智能盛会DAI 2024征稿:Agent Day,强化学习之父Richard Sutton将出席!颜水成、Sergey Levine以及DeepMind科学家将做主旨报告 分布式人工智能盛会DAI 2024征稿:Agent Day,强化学习之父Richard Sutton将出席!颜水成、Sergey Levine以及DeepMind科学家将做主旨报告 Aug 22, 2024 pm 08:02 PM

会议简介随着科技的飞速发展,人工智能已经成为了推动社会进步的重要力量。在这个时代,我们有幸见证并参与到分布式人工智能(DistributedArtificialIntelligence,DAI)的创新与应用中。分布式人工智能是人工智能领域的重要分支,这几年引起了越来越多的关注。基于大型语言模型(LLM)的智能体(Agent)异军突起,通过结合大模型的强大语言理解和生成能力,展现出了在自然语言交互、知识推理、任务规划等方面的巨大潜力。AIAgent正在接棒大语言模型,成为当前AI圈的热点话题。Au

鸿蒙智行享界S9及全场景新品发布会,多款重磅新品齐发 鸿蒙智行享界S9及全场景新品发布会,多款重磅新品齐发 Aug 08, 2024 am 07:02 AM

今天下午,鸿蒙智行正式迎来了新品牌与新车。 8月6日,华为举行鸿蒙智行享界S9及华为全场景新品发布会,带来了全景智慧旗舰轿车享界S9、问界新M7Pro和华为novaFlip、MatePadPro12.2英寸、全新MatePadAir、华为毕升激光打印机X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全场景智慧新品,从智慧出行、智慧办公到智能穿戴,华为全场景智慧生态持续构建,为消费者带来万物互联的智慧体验。鸿蒙智行:深度赋能,推动智能汽车产业升级华为联合中国汽车产业伙伴,为

See all articles