首页 科技周边 人工智能 整合 200 多项相关研究,大模型「终生学习」最新综述来了

整合 200 多项相关研究,大模型「终生学习」最新综述来了

Sep 02, 2024 pm 03:24 PM
理论

整合 200 多项相关研究,大模型「终生学习」最新综述来了

Die AIxiv-Kolumne ist eine Kolumne zur Veröffentlichung akademischer und technischer Inhalte auf dieser Website. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Die Autoren dieses Artikels stammen alle aus dem Team von Professor Ma Qianli von der South China University of Technology, und ihr Labor ist maschinelles Lernen und Data Dig the lab. Die drei Co-Erstautoren der Arbeit sind der Doktorand Zheng Junhao, der Masterstudent Qiu Shengjie und der Masterstudent Shi Chengming. Ihre Hauptforschungsrichtungen umfassen große Modelle und lebenslanges Lernen. Der korrespondierende Autor ist Professor Ma Qianli (Mitherausgeber von IEEE/). ACM TASLP). In den letzten Jahren hat das Team von Professor Ma Qianli zahlreiche Forschungsarbeiten im Zusammenhang mit Zeitreihen/NLP/Empfehlungssystem in renommierten internationalen Fachzeitschriften (wie TPAMI usw.) und auf führenden internationalen akademischen Konferenzen (wie NeurIPS, AAAI, IJCAI, ACL, Umfangreiche Kooperationen mit namhaften Universitäten und wissenschaftlichen Forschungseinrichtungen im In- und Ausland.

Da die Anwendung großer Sprachmodelle in verschiedenen Bereichen immer weiter zunimmt, stellt sich die Frage, wie diese Modelle in die Lage versetzt werden können, sich kontinuierlich an Änderungen in Daten, Aufgaben und Benutzerpräferenzen anzupassen zu einem zentralen Thema werden. Herkömmliche Trainingsmethoden für statische Datensätze können den dynamischen Anforderungen der realen Welt nicht mehr gerecht werden.

Um diese Herausforderung zu lösen, wurde die Technologie des lebenslangen Lernens oder des kontinuierlichen Lernens ins Leben gerufen. Es ermöglicht großen Sprachmodellen, während ihres Arbeitslebens kontinuierlich zu lernen und sich anzupassen, zuvor erlernte Informationen beizubehalten und gleichzeitig neues Wissen zu integrieren und katastrophales Vergessen (katastrophales Vergessen) zu verhindern.

Kürzlich untersuchten, organisierten und fassten Forscher der South China University of Technology die Methode des lebenslangen Lernens und ihre Entwicklungsaussichten für große Sprachmodelle (LLMs) zusammen und fassten sie zusammen eine umfassende und aktuelle Rezension.

整合 200 多项相关研究,大模型「终生学习」最新综述来了

  • Papiertitel: Towards Lifelong Learning of Large Language Models: A Survey
  • Institution: Südchina University of Technology University
  • Papieradresse: https://arxiv.org/abs/2406.06391
  • Projektadresse: https://github .com/ qianlima-lab/awesome-lifelong-learning-methods-for-llm

Abbildung 1 zeigt die Anwendung von lebenslangem Lernen in großer Sprache Modelle Analogie zum menschlichen Lernprozess. Die Abbildung zeigt die Entwicklung des Menschen und großer Sprachmodelle beim lebenslangen Lernen über zwei parallele Lernpfade.

整合 200 多项相关研究,大模型「终生学习」最新综述来了

人类学习(Human Learning)

1. 步行(Walk):人类从最基础的技能(如步行)开始学习。
2. 骑自行车(Ride a Bike):随着学习的进展,人类掌握了更复杂的技能(如骑自行车)。
3. 开车(Drive a Car):最终,人类可以掌握更加复杂和高级的技能(如开车)。

每一步都代表着人类在终生学习过程中不断获取新技能和知识的过程。

大语言模型学习(LLMs Learning)

1. 新语言(New Language):大语言模型从学习新的语言开始(如学会处理不同的自然语言)。
2. 新领域(New Domain):接下来,模型学习新的领域知识(如从自然语言处理扩展到医学领域)。
3. 新信息(New Information):最终,模型可以学习和整合新的信息,无论是语言还是领域。

每一步代表着大语言模型在终生学习过程中不断扩展和更新知识的过程。这张图强调终生学习的过程:终生学习是一个连续的过程,涵盖了从基础到高级的逐步进化。终生学习不仅仅是简单的知识积累,而是一个动态的、不断进化的过程。

近年来,终生学习已成为一个越来越热门的研究课题,涌现出有关神经网络终生学习的大规模调查。大多数现有研究主要关注卷积神经网络(CNN)的终生学习的各种应用场景和图神经网络的终生学习。然而,只有少量文献关注语言模型的终生学习。尽管最近的一些综述收集了终生学习的最新文献,但都没有涉及连续文本分类、连续命名实体识别、连续关系提取和连续机器翻译等场景,对连续对齐、连续知识编辑、基于工具的终生学习和基于检索的终生学习的讨论也很少。

这篇综述是第一个从 12 个场景出发,对大语言模型终生学习方法进行全面系统研究的调查。

总体来说,综述的主要贡献包括:

  • 新颖分类:引入了一个详细的结构化框架,将有关终生学习的大量文献分为 12 个场景;
  • 通用技术:确定了所有终生学习情况下的通用技术,并将现有文献分为每个场景中不同的技术组;
  • 未来方向:强调了一些新兴技术,如模型扩展和数据选择,这些技术在前 LLM 时代探索较少。

一、引言

本综述系统地总结了现有的终生学习技术方法,在图 2 中将其分为内部知识和外部知识两大类。

整合 200 多项相关研究,大模型「终生学习」最新综述来了

  • 内部知识是指通过完全或部分训练将新知识吸收到模型参数中,包括连续预训练和连续微调。
  • 外部知识是指在不更新模型参数的情况下,将维基百科或应用程序接口等外部资源中的新知识纳入模型,包括基于检索的终生学习和基于工具的终生学习。

内部知识(Internal Knowledge)

1. 连续预训练(Continual Pretraining):

  • 连续垂直领域预训练(Continual Vertical Domain Pretraining):针对特定垂直领域(如金融、医疗等)进行的连续预训练。
  • 连续语言领域预训练(Continual Language Domain Pretraining):针对自然语言和代码语言进行的连续预训练。
  • 连续时间领域预训练(Continual Temporal Domain Pretraining):针对时间相关数据(如时间序列数据)的连续预训练。

2. 连续微调(Continual Finetuning):

  • 特定任务(Task Specific):

  • 连续文本分类(Continual Text Classification):针对文本分类任务进行的连续微调。
  • 连续命名实体识别(Continual Named Entity Recognition):针对命名实体识别任务进行的连续微调。
  • 连续关系抽取(Continual Relation Extraction):针对关系抽取任务进行的连续微调。
  • 连续机器翻译(Continual Machine Translation):针对机器翻译任务进行的连续微调。

  • 任务无关(Task Agnostic):

  • 连续指令微调(Continual Instruction-Tuning):通过指令微调实现模型的连续学习。
  • 连续知识编辑(Continual Knowledge Editing):针对知识更新进行的连续学习。
  • 连续对齐(Continual Alignment):针对模型与新任务对齐进行的连续学习。

外部知识(External Knowledge)

1. 基于检索的终生学习(Retrieval-Based Lifelong Learning):通过检索外部知识库实现的终生学习。

2. 基于工具的终生学习(Tool-Based Lifelong Learning):通过调用外部工具实现的终生学习。

二、终生学习概况

2.1 问题定义

终生学习的目标是从一系列任务中学习一个语言模型,通过输入自然语言,生成目标输出。具体来说,对于生成任务,如问答,输入和输出分别代表问题和答案;对于机器翻译任务,输入和输出代表源语言和目标语言;对于文本分类任务,输入为文本内容,输出为类别标签;对于自回归语言模型的预训练任务,输入为一系列的词元,输出为相应的下一个词元。

2.2 评估指标

综述介绍了评估终生学习效果的指标,主要从整体性能、稳定性和适应性三个角度进行评估:

  • 整体性能(Overall Measurement):包括平均准确率(AA)和平均增量准确率(AIA)。AA 是指模型在学习所有任务后的平均表现,而 AIA 则考虑了每个任务学习后的历史变化。
  • 稳定性测量(Stability Measurement):包括遗忘测量(FGT)和向后转移(BWT)。FGT 评估旧任务的平均性能下降,而 BWT 评估旧任务的平均性能变化。
  • 适应性测量(Plasticity Measurement):包括向前转移(FWD),即模型在新任务上性能的平均提升。

2.3 通用技术

综述在图 3 中展示了四种主要的终生学习方法,用于应对大语言模型在处理连续任务(Task t-1 到 Task t)时的灾难性遗忘问题。以下是对每种方法的解释:

整合 200 多项相关研究,大模型「终生学习」最新综述来了

(a) Méthodes basées sur la relecture :

  • Signification : Cette méthode est utilisée lors de l'entraînement de nouvelles tâches. Rejouez les données des tâches précédentes pour consolider le mémoire du modèle des anciennes tâches. Habituellement, les données rejouées sont stockées dans un tampon et utilisées pour l'entraînement avec les données de la tâche en cours. Incluent principalement :

– Replay d'expérience : réduisez les oublis en enregistrant une partie des échantillons de données d'anciennes tâches et en réutilisant ces données pour l'entraînement lors de l'entraînement de nouvelles tâches.

–Replay génératif : contrairement à la sauvegarde d'anciennes données, cette méthode utilise un modèle génératif pour créer des pseudo-échantillons, introduisant ainsi la connaissance des anciennes tâches dans l'entraînement de nouvelles tâches.

  • Illustration : La figure 3 montre le processus de la tâche t-1 à la tâche t Le modèle entraîne la tâche lorsque t. , les anciennes données du tampon (Input t-1 ) sont utilisées.

(b) Méthodes basées sur la régularisation :

  • Signification : Cette méthode empêche le modèle de surajuster les anciens paramètres de tâche lors de l'apprentissage d'une nouvelle tâche en imposant des contraintes de régularisation sur les paramètres du modèle. Les contraintes de régularisation peuvent aider le modèle à conserver la mémoire des anciennes tâches. Incluent principalement :

– Régularisation des poids : en imposant des contraintes supplémentaires sur les paramètres du modèle, elle limite la modification des poids importants lors de l'entraînement de nouvelles tâches, protégeant ainsi l'intégrité des anciennes tâches. Par exemple, la régularisation L2 et la consolidation élastique du poids (EWC) sont des techniques courantes.

–Régularisation des fonctionnalités : la régularisation peut non seulement agir sur les poids, mais également garantir que la répartition des fonctionnalités entre les nouvelles et les anciennes tâches reste stable en limitant les performances du modèle dans l'espace des fonctionnalités.

  • Illustration : La figure 3 montre le processus de la tâche t-1 à la tâche t Le modèle entraîne la tâche lorsque t. , la régularisation des paramètres est utilisée pour maintenir les performances sur la tâche t-1.

(c) Méthodes basées sur l'architecture :

整合 200 多项相关研究,大模型「终生学习」最新综述来了

  • Signification : Cette approche se concentre sur l'adaptation de la structure du modèle pour intégrer de manière transparente de nouvelles tâches tout en minimisant les interférences avec les connaissances précédemment acquises. Il comprend principalement les six méthodes de la figure 4 :

–(a) Réglage des invites : en ajoutant des « invites logicielles » avant la saisie du modèle, pour guider les tâches de génération ou de classification du modèle. Cette méthode nécessite uniquement d'ajuster un petit nombre de paramètres (c'est-à-dire des mots d'invite) sans modifier la structure principale du modèle.

–(b) Réglage du préfixe : ajoutez des paramètres réglables entraînés à la partie préfixe de la séquence d'entrée. Ces paramètres sont insérés dans le mécanisme d'auto-attention de la couche Transformer pour aider le modèle à mieux capturer les informations contextuelles.

–(c) Adaptation de bas rang (LoRA, Low-Rank Adaptation) : LoRA s'adapte aux nouvelles tâches en ajoutant des matrices de bas rang à des niveaux spécifiques sans modifier les poids principaux du grand modèle. Cette approche réduit considérablement le nombre d'ajustements de paramètres tout en maintenant les performances du modèle.

–(d) Adaptateurs : les adaptateurs sont des modules pouvant être entraînés insérés entre différentes couches du modèle. Ces modules peuvent s'adapter avec un petit nombre de paramètres supplémentaires sans modifier les poids du modèle d'origine. Généralement appliqué dans les parties FFN (Feed Forward Network) et MHA (Multi-Head Attention).

–(e) Mélange d'experts : Traitez différentes entrées en activant sélectivement certains modules « experts », qui peuvent être des couches ou des sous-réseaux spécifiques dans le modèle. Le module Routeur est chargé de décider quel module expert doit être activé.

–(f) Extension du modèle : augmentez la capacité du modèle en ajoutant un nouveau calque (Nouveau calque) tout en conservant le calque d'origine (Ancien calque). Cette approche permet au modèle d'augmenter progressivement sa capacité à répondre à des exigences de tâches plus complexes.

  • Illustration : La figure 3 montre le processus de la tâche t-1 à la tâche t Lorsque le modèle apprend une nouvelle tâche, certains paramètres sont gelés, tandis que le module nouvellement ajouté est utilisé pour former de nouvelles tâches (Trainable).

(d) Méthodes basées sur la distillation :

  • Signification : Cette méthode transfère les connaissances de l’ancien modèle vers le nouveau modèle par distillation des connaissances. Lors de la formation d'une nouvelle tâche, le nouveau modèle apprend non seulement les données de la tâche en cours, mais imite également la sortie de l'ancien modèle pour l'ancienne tâche, conservant ainsi la connaissance de l'ancienne tâche. Comprend principalement :

– Distillation à partir de nouvelles données : le modèle étudiant apprend de nouvelles tâches sous la direction du modèle enseignant et distille les anciennes connaissances du modèle de données pour réduire l’oubli des connaissances anciennes.

– Distillation à partir d'anciennes données : utiliser les performances du modèle d'enseignant sur d'anciennes données pour guider le modèle d'élève dans l'apprentissage de nouvelles tâches, conservant ainsi les anciennes données. L'effet de la connaissance .

– Distillation à partir de données pseudo-anciennes : En générant des données pseudo-anciennes (Pseudo-Old Data), le modèle étudiant peut apprendre de nouvelles tâches Garder vivante la mémoire des anciennes connaissances .

  • Illustration : La figure 3 montre la transition de la tâche t-1 à la tâche t Dans le Dans ce processus, lorsque le modèle entraîne une nouvelle tâche, il maintient la connaissance de l'ancienne tâche en imitant les résultats de prédiction de l'ancien modèle.

3. Pré-formation continue

Pré-formation continue -formation Les connaissances internes des grands modèles de langage peuvent être mises à jour sans encourir le coût élevé d'une pré-formation complète, améliorant ainsi les capacités des grands modèles de langage. Les recherches actuelles couvrent les domaines verticaux, linguistiques et temporels, abordant des questions difficiles telles que l'oubli catastrophique et l'adaptation temporelle. Les technologies telles que la relecture de l'expérience, la distillation des connaissances, le réglage fin efficace des paramètres, l'expansion et le réchauffage du modèle ont montré de bonnes perspectives.

3.1 Pré-entraînement en champ vertical continu

Pré-entraînement en champ vertical continu -training (Continual Vertical Domain Pretraining) vise à garantir que le modèle fonctionne bien dans plusieurs domaines ou tâches verticaux en formant en continu des modèles de langage sur une série d'ensembles de données spécifiques au domaine, tout en conservant les connaissances précédemment acquises.

Méthodes principales :

1. Réglage précis des paramètres :

  • Exemple : CorpusBrain++ utilise une architecture d'adaptateur de base et une stratégie de relecture d'expérience pour aborder des tâches linguistiques à forte intensité de connaissances du monde réel.
  • Exemple : Med-PaLM introduit le réglage des invites d'instructions dans le domaine médical en utilisant un petit nombre d'exemples.

2. Extension du modèle :

  • Exemple : ELLE adopte une stratégie d'expansion de modèle préservant les fonctionnalités pour améliorer l'efficacité de l'acquisition et de l'intégration des connaissances en élargissant de manière flexible la largeur et la profondeur des modèles linguistiques pré-entraînés existants.
  • Exemple : LLaMA Pro excelle dans les tâches d'utilisation générale, de programmation et de mathématiques en étendant le bloc Transformer et en l'affinant avec un nouveau corpus.

3. Réchauffement :

  • Exemple : La stratégie proposée par Gupta et al. ajuste le taux d'apprentissage lors de l'introduction de nouveaux ensembles de données pour éviter que le taux d'apprentissage ne soit trop faible lors d'une formation à long terme, améliorant ainsi l'effet d'adaptation aux nouveaux ensembles de données.

4. Sélection des données :

  • Exemple : RHO -1 est formé avec un modèle de langage sélectif (SLM), qui donne la priorité aux jetons qui ont un plus grand impact sur le processus de formation.
  • Exemple : EcomGPT-CT améliore les performances du modèle sur des tâches spécifiques à un domaine avec des données de commerce électronique semi-structurées.

3.2 Pré-formation dans le domaine linguistique continu

La pré-formation continue du domaine linguistique (Continual Language Domain Pretraining) vise à permettre au modèle linguistique d'intégrer en permanence de nouvelles données et de s'adapter à l'évolution du domaine linguistique sans oublier les connaissances antérieures.

Principales méthodes :

1. Méthodes basées sur l'architecture :

  • Exemple : Yadav et al. améliorent le réglage des invites en introduisant un mécanisme de forçage des enseignants, créant un ensemble d'invites pour guider le réglage fin du modèle sur de nouvelles tâches.
  • Exemple : ModuleFormer et Lifelong-MoE utilisent une approche mixte d'experts (MoE) pour améliorer l'efficacité et l'adaptabilité du LLM grâce à la modularité et à l'augmentation dynamique de la capacité du modèle.

2. Réchauffement :

  • Exemple : La méthode de réchauffement proposée par Ibrahim et al. aide le modèle à s'adapter plus rapidement aux nouvelles langues en augmentant temporairement le taux d'apprentissage lors de la formation de nouvelles données.

3.3 Pré-formation continue dans le domaine temporel

Continu time Le pré-entraînement continu dans le domaine temporel implique la mise à jour continue du modèle de langage pour maintenir son exactitude et sa pertinence sur les données sensibles au temps.

Principaux défis :

Dégradation des performances : L'étude de Lazaridou et al. le modèle sur les données futures Les performances chutent significativement, mettant en évidence la difficulté du LLM en généralisation temporelle.
2. Amélioration limitée : Röttger et al. ont constaté que bien que l'adaptation temporelle présente une légère amélioration par rapport à la tâche de modèle de langage de masque, par rapport à l'adaptation de domaine pure, l'amélioration des performances des tâches en aval n'est pas significative.

À travers ces méthodes et recherches, l'auteur démontre les méthodes et les défis de la pré-formation continue dans différentes dimensions, et met l'accent sur les applications dans le domaine vertical, le domaine linguistique et le domaine temporel. La nécessité et l'efficacité de l'apprentissage tout au long de la vie.

4. Un affinement continu

Une pré-formation continue peut améliorer les éléments internes des grands modèles de langage La connaissance, sur cette base, un ajustement continu améliore la connaissance interne du grand modèle de langage et adapte le grand modèle de langage à des tâches spécifiques telles que la classification de texte, la reconnaissance d'entités nommées, l'extraction de relations, la traduction automatique ou les tâches de génération générale tels que l'ajustement des instructions, les connaissances éditées et alignées sur les préférences humaines. Pour faire face à des défis tels que l'oubli catastrophique et l'interférence des tâches, des techniques telles que la distillation, la relecture, la régularisation, les méthodes basées sur l'architecture et les gradients sont utilisées. Les auteurs illustrent 7 scénarios de réglage fin consécutifs dans la figure 5.

整合 200 多项相关研究,大模型「终生学习」最新综述来了

Ce diagramme montre comment sept types différents de tâches sont implémentés dans un grand modèle de langage grâce à l'apprentissage continu. Ce qui suit est une explication détaillée de chaque partie :

(a) Classification continue du texte

  • Exemple : une tâche de classification de texte continue entraîne le modèle en introduisant progressivement de nouvelles catégories de classification (telles que Intention : Transfert -> Intention : Pointage de crédit -> Intention : Fait amusant) afin qu'il puisse s'adapter aux besoins changeants de classification.

(b) Reconnaissance continue d'entités nommées

  • Exemple : La tâche continue de reconnaissance d'entités nommées montre comment introduire progressivement de nouveaux types d'entités (tels que Athlète -> Équipe sportive -> Politicien) tout en reconnaissant des entités spécifiques, de sorte que le modèle puisse toujours maintenir la reconnaissance des anciennes entités tout en reconnaissant la capacité des nouvelles entités. .

(c) Extraction de relations continues

  • Exemple : La tâche d'extraction continue de relations montre comment le modèle étend progressivement ses capacités d'extraction de relations en introduisant continuellement de nouveaux types de relations (tels que Relation : Fondé par -> Relation : État ou province de naissance -> Relation : Pays du siège social).

(d) Édition continue des connaissances

  • Exemple : La tâche d'édition continue des connaissances garantit qu'elle peut répondre avec précision aux faits les plus récents en mettant continuellement à jour la base de connaissances du modèle (telle que Qui est le président des États-Unis ? -> Pour quel club Cristiano Ronaldo joue-t-il actuellement ? -> Où s'est passé le dernier hiver Jeux olympiques organisés ?).

(e) Traduction automatique continue

  • Exemple : La tâche de traduction automatique continue démontre l'adaptabilité du modèle dans un environnement multilingue en étendant progressivement les capacités de traduction du modèle dans différentes langues (telles que anglais -> chinois, anglais -> espagnol, anglais -> français).

(f) Mise au point de l'enseignement continu

  • Exemple : La tâche de réglage fin de l'instruction continue entraîne les capacités de performance du modèle dans plusieurs types de tâches en introduisant progressivement de nouveaux types d'instructions (tels que Résumation -> Transfert de style -> Mathématiques).

(g) Alignement continu

  • Exemple : Continu La tâche d'alignement démontre les capacités d'apprentissage continu du modèle selon différentes normes morales et comportementales en introduisant de nouveaux objectifs d'alignement (tels que Utile et inoffensif -> Concis et organisé -> Sentiment positif).

5.Connaissances externes

Pré-formation continue Un ajustement continu est crucial pour l'apprentissage tout au long de la vie du LLM. Cependant, à mesure que le LLM devient plus grand et plus puissant, deux directions émergentes deviennent de plus en plus populaires. Elles peuvent exécuter de grands paramètres de modèle de langage sans les modifier. grands modèles de langage. Les auteurs considèrent l’apprentissage tout au long de la vie basé sur la récupération et l’apprentissage tout au long de la vie basé sur des outils, car les deux approches sont des moyens prometteurs de parvenir à un apprentissage tout au long de la vie en LLM. La figure 6 illustre les deux approches.

整合 200 多项相关研究,大模型「终生学习」最新综述来了

Apprentissage tout au long de la vie basé sur la récupération

  • Introduction : Avec l'augmentation continue de l'information dans le monde Mise à l'échelle et évolution rapidement, les modèles statiques formés sur des données historiques deviennent rapidement obsolètes et incapables de comprendre ou de générer du contenu sur les nouveaux développements. L'apprentissage tout au long de la vie basé sur la récupération répond au besoin critique de grands modèles de langage pour acquérir et assimiler les dernières connaissances provenant de sources externes, et le modèle complète ou met à jour sa base de connaissances en récupérant ces ressources externes en cas de besoin. Ces ressources externes fournissent une vaste base de connaissances actuelles, fournissant un atout complémentaire important pour améliorer les propriétés statiques des LLM pré-entraînés.
  • Exemple : Ces ressources externes dans le diagramme sont accessibles et récupérables par le modèle. En accédant à des sources d'informations externes telles que Wikipédia, des livres, des bases de données, etc., le modèle est capable de mettre à jour ses connaissances et de s'adapter lorsqu'il rencontre de nouvelles informations.

Apprentissage tout au long de la vie basé sur des outils

  • Introduction : L'apprentissage tout au long de la vie basé sur les outils naît de la nécessité d'étendre ses fonctionnalités au-delà des connaissances statiques et de lui permettre d'interagir de manière dynamique avec l'environnement. Dans les applications du monde réel, les modèles sont souvent requis pour effectuer des tâches qui impliquent des opérations allant au-delà de la génération ou de l'interprétation directe de texte.
  • Exemple : Le modèle illustré dans la figure utilise ces outils pour étendre et mettre à jour ses propres capacités, permettant ainsi un apprentissage tout au long de la vie grâce à l'interaction avec des outils externes. Par exemple, les modèles peuvent obtenir des données en temps réel via des interfaces de programmation d'applications, ou interagir avec l'environnement externe via des outils physiques pour effectuer des tâches spécifiques ou acquérir de nouvelles connaissances.

6. Discussion et conclusion

6.1 Principaux défis

  • Oubli catastrophique : il s'agit de l'un des principaux défis de l'apprentissage tout au long de la vie, et l'introduction de nouvelles informations peut écraser ce que le modèle a appris précédemment.
  • Dilemme Plasticité-Stabilité : Il est très critique de trouver un équilibre entre le maintien de la capacité d'apprentissage et la stabilité du modèle, ce qui affecte directement la capacité du modèle à acquérir de nouvelles connaissances tout en conservant ses. de larges capacités générales.
  • Coût de calcul élevé : les exigences de calcul pour affiner complètement un grand modèle de langage peuvent être très élevées.
  • Indisponibilité des poids de modèle ou des données pré-entraînées : en raison de la confidentialité, de restrictions exclusives ou de licences commerciales, les données d'entraînement brutes ou les poids de modèle sont souvent indisponibles pour des améliorations ultérieures.

6.2 Tendances actuelles

  • Des tâches spécifiques à des tâches générales : la recherche passe progressivement d'une concentration sur des tâches spécifiques (telles que la classification de textes, la reconnaissance d'entités nommées) à un éventail plus large de tâches générales, telles que le réglage des instructions, l'édition des connaissances, etc.
  • Du réglage fin complet au réglage fin partiel : compte tenu de la consommation élevée de ressources des stratégies de réglage fin complet et partiel (telles que la couche d'adaptation, le réglage rapide, LoRA) sont de plus en plus populaires.
  • Des connaissances internes aux connaissances externes : afin de surmonter les limites des mises à jour internes fréquentes, de plus en plus de stratégies utilisent des sources de connaissances externes, telles que la génération augmentée par récupération et les outils L'apprentissage permet des modèles pour accéder et exploiter dynamiquement les données externes actuelles.

6.3 Orientation future

  • Apprentissage multimodal tout au long de la vie : intégrez plusieurs modalités au-delà du texte (telles que des images, des vidéos, des audios, des données de séries chronologiques, des graphiques de connaissances) dans l'apprentissage tout au long de la vie pour développer un modèle sexuel plus complet et adaptatif.
  • Apprentissage efficace tout au long de la vie : les chercheurs travaillent au développement de stratégies plus efficaces pour gérer les exigences informatiques de la formation et des mises à jour des modèles, telles que l'élagage du modèle, la fusion de modèles, l'expansion du modèle et d'autres méthodes.
  • Apprentissage universel tout au long de la vie : l'objectif ultime est de permettre aux grands modèles linguistiques d'acquérir activement de nouvelles connaissances et d'apprendre grâce à une interaction dynamique avec l'environnement, sans plus s'appuyer uniquement sur des ensembles de données statiques.

6.4 Conclusion

L'auteur divise les recherches existantes into It fournit un résumé complet de 12 scénarios d’apprentissage tout au long de la vie. L’analyse met également en évidence la nécessité de maintenir un équilibre entre la gestion des oublis catastrophiques, la garantie de l’efficacité informatique, et entre la spécificité et la généralité dans l’acquisition des connaissances. À mesure que le domaine continue d’évoluer, l’intégration de ces stratégies avancées jouera un rôle clé dans l’élaboration de la prochaine génération de systèmes d’intelligence artificielle, en les aidant à se rapprocher d’un apprentissage et d’une adaptabilité véritablement semblables à ceux des humains.

Grâce à une étude détaillée de ces approches technologiques et de leurs catégories respectives, cette revue vise à mettre en évidence l'intégration des capacités d'apprentissage tout au long de la vie dans les outils d'apprentissage tout au long de la vie, améliorant ainsi leur utilisation réelle. Adaptabilité, fiabilité et performances globales de l'application.Dans le même temps, il offre aux chercheurs et aux ingénieurs une perspective globale pour les aider à mieux comprendre et appliquer les technologies d’apprentissage tout au long de la vie et à promouvoir le développement ultérieur de modèles linguistiques à grande échelle. Si l'article vous intéresse, vous pouvez consulter l'article original pour en savoir plus sur la recherche.

以上是整合 200 多项相关研究,大模型「终生学习」最新综述来了的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

<🎜>:泡泡胶模拟器无穷大 - 如何获取和使用皇家钥匙
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系统,解释
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆树的耳语 - 如何解锁抓钩
3 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

热门话题

Java教程
1666
14
CakePHP 教程
1425
52
Laravel 教程
1327
25
PHP教程
1273
29
C# 教程
1252
24
突破传统缺陷检测的界限,\'Defect Spectrum\'首次实现超高精度丰富语义的工业缺陷检测。 突破传统缺陷检测的界限,\'Defect Spectrum\'首次实现超高精度丰富语义的工业缺陷检测。 Jul 26, 2024 pm 05:38 PM

在现代制造业中,精准的缺陷检测不仅是保证产品质量的关键,更是提升生产效率的核心。然而,现有的缺陷检测数据集常常缺乏实际应用所需的精确度和语义丰富性,导致模型无法识别具体的缺陷类别或位置。为了解决这一难题,由香港科技大学广州和思谋科技组成的顶尖研究团队,创新性地开发出了“DefectSpectrum”数据集,为工业缺陷提供了详尽、语义丰富的大规模标注。如表一所示,相比其他工业数据集,“DefectSpectrum”数据集提供了最多的缺陷标注(5438张缺陷样本),最细致的缺陷分类(125种缺陷类别

数百万晶体数据训练,解决晶体学相位问题,深度学习方法PhAI登Science 数百万晶体数据训练,解决晶体学相位问题,深度学习方法PhAI登Science Aug 08, 2024 pm 09:22 PM

编辑|KX时至今日,晶体学所测定的结构细节和精度,从简单的金属到大型膜蛋白,是任何其他方法都无法比拟的。然而,最大的挑战——所谓的相位问题,仍然是从实验确定的振幅中检索相位信息。丹麦哥本哈根大学研究人员,开发了一种解决晶体相问题的深度学习方法PhAI,利用数百万人工晶体结构及其相应的合成衍射数据训练的深度学习神经网络,可以生成准确的电子密度图。研究表明,这种基于深度学习的从头算结构解决方案方法,可以以仅2埃的分辨率解决相位问题,该分辨率仅相当于原子分辨率可用数据的10%到20%,而传统的从头算方

英伟达对话模型ChatQA进化到2.0版本,上下文长度提到128K 英伟达对话模型ChatQA进化到2.0版本,上下文长度提到128K Jul 26, 2024 am 08:40 AM

开放LLM社区正是百花齐放、竞相争鸣的时代,你能看到Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1等许多表现优良的模型。但是,相比于以GPT-4-Turbo为代表的专有大模型,开放模型在很多领域依然还有明显差距。在通用模型之外,也有一些专精关键领域的开放模型已被开发出来,比如用于编程和数学的DeepSeek-Coder-V2、用于视觉-语言任务的InternVL

谷歌AI拿下IMO奥数银牌,数学推理模型AlphaProof面世,强化学习 is so back 谷歌AI拿下IMO奥数银牌,数学推理模型AlphaProof面世,强化学习 is so back Jul 26, 2024 pm 02:40 PM

对于AI来说,奥数不再是问题了。本周四,谷歌DeepMind的人工智能完成了一项壮举:用AI做出了今年国际数学奥林匹克竞赛IMO的真题,并且距拿金牌仅一步之遥。上周刚刚结束的IMO竞赛共有六道赛题,涉及代数、组合学、几何和数论。谷歌提出的混合AI系统做对了四道,获得28分,达到了银牌水平。本月初,UCLA终身教授陶哲轩刚刚宣传了百万美元奖金的AI数学奥林匹克竞赛(AIMO进步奖),没想到7月还没过,AI的做题水平就进步到了这种水平。IMO上同步做题,做对了最难题IMO是历史最悠久、规模最大、最负

PRO | 为什么基于 MoE 的大模型更值得关注? PRO | 为什么基于 MoE 的大模型更值得关注? Aug 07, 2024 pm 07:08 PM

2023年,几乎AI的每个领域都在以前所未有的速度进化,同时,AI也在不断地推动着具身智能、自动驾驶等关键赛道的技术边界。多模态趋势下,Transformer作为AI大模型主流架构的局面是否会撼动?为何探索基于MoE(专家混合)架构的大模型成为业内新趋势?大型视觉模型(LVM)能否成为通用视觉的新突破?...我们从过去的半年发布的2023年本站PRO会员通讯中,挑选了10份针对以上领域技术趋势、产业变革进行深入剖析的专题解读,助您在新的一年里为大展宏图做好准备。本篇解读来自2023年Week50

为大模型提供全新科学复杂问答基准与测评体系,UNSW、阿贡、芝加哥大学等多家机构联合推出SciQAG框架 为大模型提供全新科学复杂问答基准与测评体系,UNSW、阿贡、芝加哥大学等多家机构联合推出SciQAG框架 Jul 25, 2024 am 06:42 AM

编辑|ScienceAI问答(QA)数据集在推动自然语言处理(NLP)研究发挥着至关重要的作用。高质量QA数据集不仅可以用于微调模型,也可以有效评估大语言模型(LLM)的能力,尤其是针对科学知识的理解和推理能力。尽管当前已有许多科学QA数据集,涵盖了医学、化学、生物等领域,但这些数据集仍存在一些不足。其一,数据形式较为单一,大多数为多项选择题(multiple-choicequestions),它们易于进行评估,但限制了模型的答案选择范围,无法充分测试模型的科学问题解答能力。相比之下,开放式问答

准确率达60.8%,浙大基于Transformer的化学逆合成预测模型,登Nature子刊 准确率达60.8%,浙大基于Transformer的化学逆合成预测模型,登Nature子刊 Aug 06, 2024 pm 07:34 PM

编辑|KX逆合成是药物发现和有机合成中的一项关键任务,AI越来越多地用于加快这一过程。现有AI方法性能不尽人意,多样性有限。在实践中,化学反应通常会引起局部分子变化,反应物和产物之间存在很大重叠。受此启发,浙江大学侯廷军团队提出将单步逆合成预测重新定义为分子串编辑任务,迭代细化目标分子串以生成前体化合物。并提出了基于编辑的逆合成模型EditRetro,该模型可以实现高质量和多样化的预测。大量实验表明,模型在标准基准数据集USPTO-50 K上取得了出色的性能,top-1准确率达到60.8%。

Nature观点,人工智能在医学中的测试一片混乱,应该怎么做? Nature观点,人工智能在医学中的测试一片混乱,应该怎么做? Aug 22, 2024 pm 04:37 PM

编辑|ScienceAI基于有限的临床数据,数百种医疗算法已被批准。科学家们正在讨论由谁来测试这些工具,以及如何最好地进行测试。DevinSingh在急诊室目睹了一名儿科患者因长时间等待救治而心脏骤停,这促使他探索AI在缩短等待时间中的应用。Singh利用了SickKids急诊室的分诊数据,与同事们建立了一系列AI模型,用于提供潜在诊断和推荐测试。一项研究表明,这些模型可以加快22.3%的就诊速度,将每位需要进行医学检查的患者的结果处理速度加快近3小时。然而,人工智能算法在研究中的成功只是验证此

See all articles