Au cours des deux dernières années, l’apprentissage automatique a révolutionné la prédiction de la structure des protéines. Aujourd’hui, l’intelligence artificielle a déclenché une nouvelle révolution dans le domaine de la conception des protéines.
Depuis l’avènement de l’IA, de nombreux scientifiques se sont lancés dans la voie de son utilisation pour mener des recherches sur les protéines. Les biologistes ont découvert que grâce à l’apprentissage automatique, des molécules de protéines peuvent être créées en quelques secondes. Dans le passé, cette période pouvait durer plusieurs mois.
Récemment, la start-up Evozyne a utilisé des modèles d'IA pré-entraînés fournis par NVIDIA pour créer deux protéines au potentiel important dans les domaines médical et des énergies propres. L’une des protéines est utilisée pour traiter une maladie congénitale et une autre pour consommer du dioxyde de carbone afin de réduire le réchauffement climatique.
De cette manière, les scientifiques utilisent NVIDIA BioNeMo pour créer des modèles de langage à grande échelle capables de générer des protéines de haute qualité pour accélérer le développement de médicaments et contribuer à créer un environnement plus durable.
Une nouvelle façon d'accélérer la découverte de médicaments
Andrew Ferguson, co-fondateur d'Evozyne et co-auteur de l'article, a déclaré : "Ce qui est gratifiant, c'est que les protéines synthétiques produites par ce modèle d'IA au premier tour sont tout comme les protéines naturelles. Indique que le modèle a appris les règles de conception de la nature. »
Evozyne utilise le ProtT5 de NVIDIA. ProtT5 est un modèle Transformer qui fait partie de NVIDIA BioNeMo, un cadre logiciel et un service permettant de créer des modèles d'IA médicale.
L'ingénieur moléculaire Ferguson, dont les domaines de recherche couvrent les domaines de la chimie et de l'apprentissage automatique, a déclaré : "BioNeMo est très puissant et nous permet de former un modèle puis d'utiliser le modèle pour exécuter des tâches de travail à un coût très faible, en un rien de temps. de secondes. Générez des millions de séquences. Le modèle prédit comment assembler de nouvelles protéines qui répondent aux besoins d'Evozyne. "
Ce modèle est au cœur du pipeline Evovyne ProT-VAE. Le pipeline ProT-VAE d'Evozyne combine le puissant modèle Transformer de NVIDIA BioNeMo avec des auto-encodeurs variationnels (VAE).
Il a déclaré : "Il y a quelques années, personne n'avait remarqué que les protéines pouvaient être conçues à l'aide de grands modèles de langage combinés à des auto-encodeurs variationnels." acides aminés dans une protéine. Cela représente des centaines de mutations.
Joshua Moller, data scientist chez Evozyne, a déclaré : « Ils accélèrent la formation en étendant le travail à plusieurs GPU.
Cela réduit le temps de formation d'un grand modèle d'IA de plusieurs mois à une semaine. Nous pouvons ainsi former des modèles qui seraient autrement impossibles. à entraîner, comme certains avec des milliards de paramètres pouvant être entraînés. «
Modèle d'IA révolutionnaireLa méthode traditionnelle de conception d'ingénierie des protéines, l'évolution dirigée, utilise une approche lente et non planifiée qui ne modifie généralement que la séquence de quelques acides aminés à la fois. L'apprentissage automatique aide
BioNeMo est une IA. -Service cloud et cadre de développement de médicaments basés sur NVIDIA NeMo Megatron pour la formation et le déploiement d'applications à grande échelle à l'échelle du supercalcul. Le service Biomolecule Transformer AI comprend un LLM pré-entraîné, une prise en charge native des formats de fichiers courants pour les protéines, l'ADN, l'ARN. et chimie, et est disponible pour SMILES (pour les structures moléculaires) et FASTA (pour les séquences d'acides aminés et de nucléotides)) à l'aide du chargeur de données
Avec BioNeMo, les scientifiques peuvent commencer facilement à utiliser des modèles pré-entraînés, des téléchargeurs automatiques et des préprocesseurs pour UniRef50. et les bases de données ZINC, avec divers modèles, intégrations et sorties. La pré-formation non supervisée élimine également le besoin de données étiquetées pour générer rapidement des intégrations apprises qui prédisent la structure, la fonction, l'emplacement cellulaire, la solubilité dans l'eau et la liaison membranaire, économisant ainsi de la surface et des variables. zone, etc.
Parmi eux, MegaMolBART est un modèle de chimie générative formé à l'aide de 1,4 milliard de molécules (chaîne SMILES), qui peut être utilisée pour une variété d'applications informatiques chimiques, et BioNeMo fournit ProtT5 et ESM1 -85M et d'autres Transformer-. modèles de langage protéique basés sur
BioNeMo propose également OpenFold, un modèle d'apprentissage en profondeur pour prédire la structure 3D de nouvelles séquences de protéines.
Le modèle Transformer de NVIDIA lit des millions de séquences d'acides aminés. comprendre le texte et apprendre comment la nature construit les séquences d'acides aminés des protéines.
En ce qui concerne l'avenir, les perspectives d'utilisation de l'IA pour accélérer l'ingénierie des protéines sont très prometteuses par rapport à celles trouvées à l'origine dans la nature. plus stable et peut réaliser l'une de ses fonctions dans des conditions extrêmes telles que l'absence d'énergie ou une température élevée
.De plus, l'intelligence artificielle peut également être utilisée pour concevoir des séquences d'acides aminés adaptées au squelette, qui peuvent être utilisées pour améliorer la stabilité de protéines spécifiques telles que les enzymes et les anticorps. La technologie de l’intelligence artificielle joue un rôle très important dans la conception de protéines de différentes tailles et conformations. À l’avenir, elle pourra également contribuer à concevoir de plus en plus de protéines utiles, notamment de nouveaux matériaux biologiques pouvant être utilisés pour réduire la pollution et améliorer l’environnement. .
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!