Éditeur | Radis Skin
Au cours des **longs** trois milliards d'années d'évolution naturelle, la **forme** des **existantes** protéines s'est formée et a subi un long processus de sélection naturelle. L'évolution est comme une expérience parallèle menée à des échelles de temps géologiques, par le biais de mécanismes de mutation et de sélection aléatoires, triant en fonction de la séquence, de la structure et de la fonction des protéines.
, Ici, des chercheurs d'EvolutionaryScale montrent que les modèles de langage formés sur des marqueurs générés par l'évolution peuvent servir de simulateurs évolutifs pour générer des fonctionnalités qui diffèrent des séquences protéiques connues **protéine.
, les chercheurs proposent **avant-garde** ESM3, un modèle de langage génératif multimodal **avancé** qui peut raisonner sur la séquence, la structure et la fonction des protéines. ESM3 peut combiner ses modalités pour suivre des signaux complexes et est très sensible à l’alignement biologique.
Les chercheurs utilisent ESM3 pour générer des protéines fluorescentes **hautes performances**. L'une des protéines fluorescentes les plus **efficaces** a une séquence très différente (homologie de 58 %) des protéines fluorescentes connues.
L'article de prépublication de cette recherche "Simuler 500 millions d'années d'évolution avec un modèle de langage" sera publié prochainement sur la plateforme de prépublication bioRxiv.
Comment l'évolution naturelle a-t-elle façonné la diversité actuelle des protéines dans la nature sur plus de trois milliards d'années ?
Ce processus implique **de nombreuses** mutations aléatoires et événements de sélection naturelle. Chaque lien est un test **strict** de la séquence, de la structure et de la fonction biologique de la protéine. Uniquement l'environnement le plus **adapté**. les protéines modifiées peuvent être conservées.
Par conséquent, les informations existantes sur les séquences de protéines contiennent essentiellement l’impact des variables biologiques sur le long chemin évolutif de plusieurs milliards d’années.
L'équipe EvolutionaryScale a proposé une méthode innovante capable de simuler ce grand processus évolutif à l'aide d'un modèle de langage génératif multimodal appelé ESM3.
ESM3 peut non seulement comprendre et générer des séquences de protéines, mais également considérer de manière globale la structure et la fonction des protéines, devenant ainsi un puissant outil de simulation évolutive. Ce modèle est conçu avec un mécanisme d’attention géométrique unique capable de traiter efficacement les informations structurelles tridimensionnelles des protéines, essentielles à la compréhension et à la prévision du comportement des protéines.
Les modèles linguistiques fonctionnent sur des unités discrètes ou des jetons. Pour créer un modèle capable de raisonner sur les trois propriétés biologiques fondamentales d'une protéine (séquence, structure et fonction), les chercheurs ont dû convertir les structures et fonctions tridimensionnelles en un alphabet discret et trouver un moyen d'écrire chaque structure tridimensionnelle comme une méthode de séquence de lettres.
Cela permet à ESM3 d'être formé à grande échelle, libérant ainsi des capacités génératives émergentes. Le vocabulaire d'ESM3 intègre la séquence, la structure et la fonction dans le même modèle de langage.
Illustration : ESM3 a conçu un échafaudage pour le site actif de la PETase grâce à des signaux multimodaux de séquence, de structure et de fonction. (Source : article)
L'objectif de formation de l'ESM3 est simple. Pour chaque protéine, sa séquence, sa structure et sa fonction ont été extraites, marquées et partiellement masquées. ESM3 est chargé de prédire les emplacements de masquage à l'aide d'un objectif de modélisation de langage de masquage inspiré des modèles de traitement du langage naturel.
Pour accomplir cette tâche, ESM3 doit apprendre à comprendre en profondeur les liens entre la séquence, la structure et la fonction dans les données à l'échelle évolutive. ESM3 apprend à simuler l'évolution en s'adaptant à des milliards de protéines et à des milliards de paramètres.
ESM3 est capable de générer des protéines fonctionnelles différentes des séquences protéiques connues existantes. Ce modèle se caractérise par sa capacité à comprendre et à répondre à des signaux multimodaux complexes tout en étant très sensible à l'alignement biologique.
ESM3 est très sensible à l’alignement biologique, ce qui signifie qu’il peut identifier et suivre avec précision les modèles liés à l’évolution et à la fonction biologiques. Grâce à cet alignement, les modèles peuvent mieux comprendre comment les protéines évoluent en fonction de leurs rôles biologiques et des exigences environnementales, reflétant ainsi plus précisément la logique biologique de la nature et les contraintes évolutives lors de la conception de nouvelles protéines.
Il peut générer de nouvelles protéines selon les instructions. Les capacités d'inférence multimodale d'ESM3 permettent aux scientifiques de générer de nouvelles protéines avec un degré de contrôle sans précédent. Par exemple, les modèles peuvent être incités à combiner structure, séquence et fonction pour proposer des échafaudages potentiels pour le site actif de la PETase, une enzyme qui dégrade le polyéthylène téréphtalate (PET), un ingénieur protéique qui décompose les objectifs de recherche sur les déchets plastiques.
Résoudre des problèmes de génération plus difficiles
Illustration : modèle ESM3 évalué sur la tâche de générer des protéines qui satisfont des signaux de coordination atomique. (Source : article)
La capacité d’ESM3 à résoudre des tâches difficiles de conception de protéines devient évidente à mesure que l’échelle des protéines augmente. L’une de ces tâches est la coordination atomique, la conception de protéines basée sur des indices qui spécifient les positions des atomes d’acides aminés qui sont éloignés en séquence mais plus proches en structure.
Cela mesure la capacité d’un modèle à atteindre une précision au niveau atomique dans la génération de structure, ce qui est essentiel pour la conception de protéines fonctionnelles. La capacité d'ESM3 à résoudre ces tâches augmente avec l'échelle, c'est-à-dire qu'ESM3 résout des problèmes de génération plus difficiles en fonction de l'échelle.
ESM3 est encore amélioré avec le feedback en utilisant une méthode d'alignement similaire à l'apprentissage par renforcement avec feedback humain (RLHF) appliquée en LLM. Au lieu de recevoir des commentaires des humains, ESM3 peut s'améliorer, en fournissant des commentaires sur la qualité de sa propre génération. Les retours d’expériences en laboratoire humide ou les données expérimentales existantes peuvent également être utilisés pour aligner la génération d’ESM3 sur la biologie.
S'étendant sur 500 millions d'années de distance évolutive naturelle
Les chercheurs ont utilisé ESM3 pour concevoir une nouvelle protéine fluorescente appelée esmGFP, qui n'a que 58 % d'homologie de séquence avec la protéine fluorescente connue la plus similaire, qui était extrêmement rare dans les expériences artificielles précédentes. dessins.
En demandant à ESM3 de se concentrer sur la séquence et les caractéristiques structurelles nécessaires à la formation de protéines fluorescentes et à catalyser les réactions chromosomiques, le modèle a été conçu à travers une série d'itérations, aboutissant finalement à esmGFP avec des effets fluorescents brillants.
Cette protéine est non seulement significativement différente des protéines connues en termes de séquence, mais présente également une intensité de fluorescence similaire à celle des protéines fluorescentes courantes dans les expériences. Cela équivaut à une distance évolutive naturelle s’étendant sur plus de 500 millions d’années.
EvolutionaryScale est une entreprise à but non lucratif. Leur mission est de développer l’intelligence artificielle pour comprendre la biologie au profit de la santé humaine et de la société grâce à une collaboration avec la communauté scientifique et à une recherche ouverte, sûre et responsable. Depuis sa création, le projet ESM s'est engagé en faveur de la science ouverte à travers la publication de codes et de modèles, et l'équipe s'engage à continuer dans cette voie.
La société a été fondée en juillet 2023 et a finalisé un cycle de financement de démarrage de 142 millions de dollars américains et a conclu une coopération avec Amazon et NVIDIA.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!