Éditeur | Radis Core
Les modèles de langage pré-entraînés se sont montrés très prometteurs dans l'analyse des séquences nucléotidiques, mais il reste encore des défis à relever lors de l'utilisation d'un seul ensemble de poids pré-entraînés pour obtenir des modèles multifonctionnels qui fonctionnent bien dans différentes tâches. .
Baidu Big Data Lab (BDL) et l'équipe de l'Université Jiao Tong de Shanghai ont développé RNAErnie, un modèle de pré-entraînement centré sur l'ARN basé sur l'architecture Transformer.
Les chercheurs ont évalué le modèle à l'aide de sept ensembles de données et de cinq tâches, démontrant la supériorité de RNAErnie dans l'apprentissage supervisé et non supervisé.
RNAErnie dépasse la ligne de base en améliorant la précision de la classification de 1,8 %, la précision de la prédiction des interactions de 2,2 % et le score F1 de la prédiction de la structure de 3,3 %, démontrant sa robustesse et son adaptabilité.
L'étude s'intitule « Modélisation du langage ARN polyvalent avec pré-entraînement sensible aux motifs et réglage fin guidé par type » et a été publiée dans « Nature Machine Intelligence » le 13 mai 2024.
L'ARN joue un rôle clé dans le dogme central de la biologie moléculaire, responsable de la transmission des informations génétiques contenues dans l'ADN aux protéines.
Les molécules d'ARN jouent un rôle essentiel dans divers processus cellulaires tels que l'expression, la régulation et la catalyse des gènes. Compte tenu de l’importance de l’ARN dans les systèmes biologiques, il existe un besoin croissant de méthodes d’analyse efficaces et précises des séquences d’ARN.
L'analyse traditionnelle de séquençage d'ARN repose sur des techniques expérimentales telles que le séquençage d'ARN et les puces à ADN, mais ces méthodes sont souvent coûteuses, prennent du temps et nécessitent de grandes quantités d'ARN.
Pour relever ces défis, les équipes du Baidu BDL et de l'Université Jiao Tong de Shanghai ont développé un modèle de langage ARN pré-entraîné : RNAErnie.
RNAErnie
Le modèle est construit sur le cadre de représentation améliorée de l'intégration des connaissances (ERNIE) et contient des blocs Transformer multicouches et multi-têtes, chacun avec une dimension d'état caché de 768. Le pré-entraînement est effectué à l’aide d’un vaste corpus composé d’environ 23 millions de séquences d’ARN soigneusement sélectionnées dans RNAcentral.
La stratégie de pré-entraînement basée sur les motifs proposée implique un masquage au niveau de la base, un masquage au niveau des sous-séquences et un masquage aléatoire au niveau du motif, qui capture efficacement les connaissances au niveau des sous-séquences et des motifs et enrichit la représentation des séquences d'ARN.
De plus, RNAErnie étiquette les types d'ARN à gros grains comme vocabulaires spéciaux et ajoute les étiquettes des types d'ARN à gros grains à la fin de chaque séquence d'ARN pendant la pré-entraînement. Ce faisant, le modèle a le potentiel de discerner les caractéristiques uniques de différents types d’ARN, facilitant ainsi l’adaptation du domaine à diverses tâches en aval.
Plus précisément, le modèle RNAErnie se compose de 12 couches Transformer. Dans la phase de pré-formation sensible au sujet, RNAErnie est formé sur un ensemble de données d'environ 23 millions de séquences extraites de la base de données RNAcentral, en utilisant un apprentissage auto-supervisé et des masques aléatoires multi-niveaux sensibles au sujet.
Illustration : Pré-formation adaptée au sujet et stratégie de réglage fin guidée par le type. (Source : article)
Dans l'étape de réglage fin guidé par les types, RNAErnie utilise d'abord les intégrations de sortie pour prédire d'éventuels types d'ARN à gros grains, puis utilise les types prédits comme informations auxiliaires pour affiner le modèle via des tâches. en-têtes spécifiques.
Cette approche permet au modèle de s'adapter à différents types d'ARN et améliore son utilité dans un large éventail de tâches d'analyse d'ARN.
Plus précisément, pour s'adapter aux changements de distribution entre l'ensemble de données pré-entraîné et le domaine cible, RNAErnie exploite l'adaptation de domaine pour combiner le backbone pré-entraîné avec les modules en aval dans trois architectures neuronales : le backbone gelé avec réseau de têtes entraînables (FBTH), colonne vertébrale entraînable avec têtes entraînables (TBTH) et empilage pour un réglage précis guidé par type (STACK).
De cette manière, la méthode proposée peut optimiser de bout en bout le backbone et les en-têtes spécifiques aux tâches, ou utiliser des intégrations extraites du backbone gelé pour affiner les en-têtes spécifiques aux tâches, en fonction de l'application en aval.
Évaluation des performances
Illustration : RNAErnie capture des modèles d'ontologie à plusieurs niveaux. (Source : article)
Les chercheurs ont évalué la méthode et les résultats ont montré que RNAErnie surpassait l'état de l'art existant sur sept ensembles de données de séquences d'ARN couvrant plus de 17 000 motifs d'ARN majeurs, 20 types d'ARN et 50 000 séquences d'ARN.
Illustration : performances de RNAErnie sur la tâche de prédiction de la structure secondaire de l'ARN à l'aide des ensembles de données ArchiveII600 et TS0. (Source : article)
Évalué à l'aide de 30 technologies traditionnelles de séquençage d'ARN, démontrant la généralisation et la robustesse de RNAErnie. L’équipe a utilisé l’exactitude, la précision, le rappel, le score F1, le MCC et l’AUC comme paramètres d’évaluation pour garantir une comparaison équitable des méthodes d’analyse RNA-seq.
Actuellement, il existe peu d'études sur l'application de l'architecture Transformer avec des connaissances externes améliorées à l'analyse des données de séquençage d'ARN. Le framework RNAErnie à partir de zéro intègre des stratégies d’intégration de séquences d’ARN et d’apprentissage auto-supervisé pour apporter des performances, une interprétabilité et un potentiel de généralisation supérieurs aux tâches d’ARN en aval.
De plus, RNAErnie peut être adapté à d'autres tâches en modifiant les sorties et en surveillant les signaux. RNAErnie est accessible au public et constitue un outil efficace pour comprendre l’analyse d’ARN guidée par type et les applications avancées.
Limitations
Bien que le modèle RNAErnie soit innovant dans l'analyse des séquences d'ARN, il fait encore face à certains défis.
Premièrement, le modèle est limité par la taille des séquences d’ARN qu’il peut analyser, car les séquences de plus de 512 nucléotides sont rejetées, négligeant potentiellement des informations structurelles et fonctionnelles importantes. Les méthodes de blocage développées pour gérer des séquences plus longues peuvent entraîner une perte supplémentaire d'informations sur les interactions à longue portée.
Deuxièmement, l'objet de cette étude est restreint, se concentrant uniquement sur les domaines d'ARN et ne s'étendant pas à des tâches telles que la prédiction des protéines d'ARN ou l'identification des sites de liaison. De plus, le modèle rencontre des difficultés pour prendre en compte les motifs structurels tridimensionnels de l'ARN, tels que les boucles et les jonctions, qui sont essentiels à la compréhension du fonctionnement de l'ARN.
Plus important encore, les conceptions d'architecture post-hoc existantes présentent également des limites potentielles.
Conclusion
Néanmoins, RNAErnie a un grand potentiel pour faire progresser l’analyse de l’ARN. Le modèle démontre sa polyvalence et son efficacité en tant que solution générale dans différentes tâches en aval.
De plus, les stratégies innovantes adoptées par RNAErnie devraient améliorer les performances d'autres modèles pré-entraînés en analyse d'ARN. Ces découvertes font de RNAErnie un atout précieux, fournissant aux chercheurs un outil puissant pour démêler les complexités de la recherche liée à l’ARN.
Lien papier :https://www.nature.com/articles/s42256-024-00836-4
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!