Meta AI ouvre plus de 600 millions de cartes de structure de protéines métagénomiques et 15 milliards de modèles de langage ont été réalisés en deux semaines-IA-php.cn

Table des matières

Introduction

Déverrouiller le monde caché de la nature : la première vue complète de l'espace structurel métagénomique

Apprenez à lire le langage biologique

Obtenez une accélération de plusieurs ordres de grandeur dans le repliement des protéines

Maison

Périphériques technologiques

Meta AI ouvre plus de 600 millions de cartes de structure de protéines métagénomiques et 15 milliards de modèles de langage ont été réalisés en deux semaines

王林

Apr 16, 2023 am 11:37 AM

ai 语言模型

Cette année, DeepMind a publié les structures prédites d'environ 220 millions de protéines, ce qui couvre presque toutes les protéines des organismes connus dans la base de données ADN. Aujourd’hui, un autre géant de la technologie, Meta, comble un autre vide, celui des microbes.

En termes simples, Meta utilise la technologie de l'IA pour prédire les structures d'environ 600 millions de protéines provenant de bactéries et d'autres micro-organismes encore à caractériser. Le chef d'équipe, Alexander Rives, a déclaré : « Ces protéines sont les structures que nous connaissons le moins, et ce sont des protéines très mystérieuses. Je pense que ces découvertes offrent le potentiel d'une compréhension approfondie de la biologie.

Habituellement, les modèles de langage sont utilisés dans. » grandes quantités Formé sur le texte. Meta Pour appliquer des modèles de langage aux protéines, Rives et ses collègues ont pris comme entrée des séquences protéiques connues, composées de 20 acides aminés représentés par des lettres différentes. Le réseau a alors appris à auto-compléter les protéines tout en masquant une certaine proportion d’acides aminés.

Meta a nommé ce réseau ESMFold. Bien que la précision de prédiction d'ESMFold ne soit pas aussi bonne que celle d'AlphaFold, elle est environ 60 fois plus rapide que celle d'AlphaFold pour prédire les structures. Cette vitesse signifie que les prédictions de la structure des protéines peuvent être étendues à des bases de données plus grandes.

Meta AI ouvre plus de 600 millions de cartes de structure de protéines métagénomiques et 15 milliards de modèles de langage ont été réalisés en deux semaines

Adresse de papier: https://www.biorxiv.org/content/10.1101/2022.07.20.500902v2
project Adresse: https://github.com/facebookresearch/esm

Maintenant, à titre de test, Meta a décidé d'appliquer son modèle à une base de données d'ADN métagénomique, tous provenant de l'environnement, y compris le sol, l'eau de mer, l'intestin humain, la peau et d'autres habitats microbiens. Meta AIannonce le lancement de l'Atlas métagénomique ESM contenant plus de 600 millions de protéines, qui constitue la première vue complète de la « matière noire » de l'univers des protéines. Il s’agit également de la plus grande base de données de structures prédites à haute résolution, 3 fois plus grande que n’importe quelle base de données existante sur la structure des protéines, et la première à fournir une couverture complète et à grande échelle des protéines métagénomiques.

Meta AI ouvre plus de 600 millions de cartes de structure de protéines métagénomiques et 15 milliards de modèles de langage ont été réalisés en deux semaines

Au total, l'équipe Meta a prédit plus de 617 millions de structures protéiques en seulement deux semaines. Rives a déclaré que les prédictions sont gratuites et accessibles à tous, tout comme le code sous-jacent du modèle.

Meta AI ouvre plus de 600 millions de cartes de structure de protéines métagénomiques et 15 milliards de modèles de langage ont été réalisés en deux semaines

Adresse de la version interactive : https://esmatlas.com/explore?at=1%2C1%2C21.999999344348925

Par exemple, l'image ci-dessous montre la prédiction d'ESMFold sur l'enzyme PET.

Meta AI ouvre plus de 600 millions de cartes de structure de protéines métagénomiques et 15 milliards de modèles de langage ont été réalisés en deux semaines

Introduction

Comme nous le savons tous, les protéines sont des molécules complexes et dynamiques codées par des gènes et sont principalement responsables des processus fondamentaux de la vie. Les protéines jouent un rôle étonnant en biologie. Par exemple, les bâtonnets et les cônes de l’œil humain détectent la lumière afin que nous puissions voir le monde extérieur ; les capteurs moléculaires qui constituent la base de l’audition et du toucher ; les molécules complexes des plantes qui convertissent l’énergie lumineuse en énergie chimique ; les micro-organismes et les « moteurs » qui font bouger les muscles humains ; les enzymes qui décomposent le plastique ; les anticorps qui nous protègent des maladies, etc. sont tous des protéines.

En 1998, Jo Handelsman du Département de phytopathologie de l'Université du Wisconsin a proposé pour la première fois le concept de métagénomique, qui provient dans une certaine mesure de l'étude et de l'analyse d'ensembles de gènes de l'environnement comme un seul génome. deet macro en anglais est méta-, qui est également traduit par yuan.

Metagenomics révèle des milliards de séquences protéiques nouvelles pour la science, cataloguées pour la première fois par le NCBI (European Bioinformatics Institute et Joint Genome Institute) et d'autres grandes bases de données compilées par des projets publics.

Nouvelle méthode de repliement des protéines développée par Meta AI qui exploite de grands modèles de langage pour créer la première vue complète de la structure des protéines dans des bases de données métagénomiques (avec des centaines de millions de protéines). Meta a découvert que les modèles de langage peuvent prédire la structure tridimensionnelle des protéines au niveau atomique 60 fois plus rapidement que les méthodes existantes de prédiction de la structure des protéines SOTA. Cette avancée contribuera à accélérer une nouvelle ère de compréhension de la structure des protéines, permettant pour la première fois de comprendre les structures des milliards de protéines cataloguées par la technologie de séquençage génétique.

Déverrouiller le monde caché de la nature : la première vue complète de l'espace structurel métagénomique

Nous savons que les progrès du séquençage génétique ont permis de cataloguer des milliards de séquences protéiques métagénomiques. Mais la détermination expérimentale de la structure 3D de milliards de protéines va bien au-delà des techniques de laboratoire chronophages telles que la cristallographie aux rayons X, qui peuvent prendre des semaines, voire des années, pour détecter une seule protéine. Les approches informatiques peuvent fournir des informations sur les protéines métagénomiques qui ne sont pas possibles à l’aide de techniques expérimentales.

La cartographie métagénomique ESM permettra aux scientifiques de rechercher et d'analyser la structure des protéines métagénomiques à l'échelle de centaines de millions de protéines. Cela peut aider à identifier des structures jusqu’alors non caractérisées, à rechercher des relations évolutives distantes et à découvrir de nouvelles protéines qui pourraient être utilisées en médecine et dans d’autres applications.

Ce qui suit est une carte contenant des dizaines de milliers de prédictions de haute confiance, montrant des similitudes avec des protéines dont les structures sont actuellement connues. Et, pour la première fois, l’image montre une région beaucoup plus grande de l’espace de structure des protéines qui était complètement inconnue.

Meta AI ouvre plus de 600 millions de cartes de structure de protéines métagénomiques et 15 milliards de modèles de langage ont été réalisés en deux semaines

Apprenez à lire le langage biologique

Comme le montre la figure ci-dessous, le modèle de langage ESM-2 est entraîné pour prédire les acides aminés qui ont été masqués par séquence au cours de l'évolution. Meta AI a découvert que, suite à la formation, des informations sur la structure des protéines apparaissaient dans l’état interne du modèle. C'est surprenant puisque le modèle n'a été entraîné que sur des séquences.

Meta AI ouvre plus de 600 millions de cartes de structure de protéines métagénomiques et 15 milliards de modèles de langage ont été réalisés en deux semaines

Tout comme le texte d'un papier ou d'une lettre, les protéines peuvent être écrites sous forme de séquences de caractères. Chaque caractère correspond à l'un des 20 éléments chimiques standards (acides aminés), chacun ayant des propriétés différentes et qui sont les éléments constitutifs des protéines. Ces éléments constitutifs peuvent être assemblés de manières astronomiquement différentes, par exemple pour une protéine composée de 200 acides aminés, il existe 20^200 séquences possibles, ce qui est plus que le nombre d'atomes dans l'univers visible. Chaque séquence se plie en une forme 3D (mais toutes les séquences ne se plient pas en une structure cohérente, beaucoup se plient en une forme désordonnée), et c'est cette forme qui détermine en grande partie la fonction biologique de la protéine.

Apprendre à lire le langage biologique comporte de grands défis. Bien que les séquences de protéines et les passages de texte puissent être écrits sous forme de caractères, il existe des différences profondes et fondamentales entre eux. Une séquence protéique décrit la structure chimique d’une molécule qui se plie en formes 3D complexes selon les lois de la physique.

Les séquences protéiques contiennent des modèles statistiques qui transmettent des informations sur la structure de repliement des protéines. Par exemple, si deux positions dans une protéine coévoluent, ou en d’autres termes, si un certain acide aminé apparaît à une position et s’associe généralement à un certain acide aminé à l’autre position, cela peut signifier que les deux positions sont dans la structure repliée. interaction. Cela ressemble à deux pièces d’un puzzle, où l’évolution doit choisir les acides aminés qui s’emboîtent dans une structure pliée. Cela signifie que nous pouvons souvent déduire la structure d’une protéine en observant des modèles dans sa séquence.

ESM utilise l'IA pour apprendre à lire ces modèles. En 2019, Meta AI a prouvé que les modèles de langage apprennent les propriétés des protéines, telles que leur structure et leur fonction. Grâce à une forme d’apprentissage auto-supervisé appelée modélisation du langage masqué, Meta AI a formé un modèle de langage sur les séquences de millions de protéines naturelles. Grâce à cette méthode, le modèle doit combler correctement les lacunes du paragraphe de texte, telles que "To _ or not to , c'est le _____".

Ensuite, Meta AI entraîne un modèle de langage pour combler les lacunes de la séquence protéique. Ils ont découvert que des informations sur la structure et la fonction des protéines apparaissaient au cours de cette formation. En 2020, Meta a publié un modèle de langage protéique SOTA, ESM1b, pour diverses applications, notamment pour aider les scientifiques à prédire l’évolution du COVID-19 et à découvrir les causes génétiques de la maladie.

Maintenant, Meta AI a étendu cette approche pour créer le modèle de langage protéique de nouvelle génération ESM-2, qui, avec 15 milliards de paramètres, est le plus grand modèle de langage protéique à ce jour. Ils ont constaté que lorsque les paramètres du modèle passaient de 8 millions à 15 milliards, des informations apparaissaient dans la représentation interne, permettant des prédictions de structure 3D à une résolution atomique.

Obtenez une accélération de plusieurs ordres de grandeur dans le repliement des protéines

Dans la figure ci-dessous, à mesure que le modèle est agrandi, une structure protéique à haute résolution apparaît. En même temps, à mesure que le modèle évolue, de nouveaux détails apparaissent dans les images à résolution atomique de la structure des protéines.

Meta AI ouvre plus de 600 millions de cartes de structure de protéines métagénomiques et 15 milliards de modèles de langage ont été réalisés en deux semaines

En utilisant les outils informatiques SOTA actuels, prédire la structure de centaines de millions de séquences protéiques sur une échelle de temps réaliste pourrait prendre des années, même avec les ressources des grandes institutions de recherche. Par conséquent, pour faire des prédictions à l’échelle métagénomique, une avancée majeure dans la vitesse de prédiction est cruciale.

Meta AI a découvert que l'utilisation de modèles linguistiques de séquences protéiques accélère considérablement la prédiction de la structure, jusqu'à 60 fois. Cela suffit pour faire des prédictions sur l’intégralité d’une base de données métagénomique en quelques semaines seulement et peut être étendu à des bases de données beaucoup plus volumineuses que celles actuellement publiées. En fait, cette nouvelle capacité de prédiction de structure a permis de prédire les séquences de plus de 600 millions de protéines métagénologiques en seulement deux semaines sur un cluster d’environ 2 000 GPU.

De plus, les méthodes actuelles de prédiction de la structure SOTA nécessitent de rechercher de grandes bases de données de protéines pour identifier les séquences pertinentes. Ces méthodes nécessitent en fait un ensemble complet de séquences liées à l’évolution en entrée afin de pouvoir extraire des modèles liés à la structure. Le modèle de langage ESM-2 de Meta AI apprend ces modèles évolutifs lors de son entraînement sur les séquences protéiques, permettant des prédictions haute résolution des structures 3D directement à partir des séquences protéiques.

La figure ci-dessous montre le repliement des protéines à l'aide du modèle de langage ESM-2. Les flèches de gauche à droite montrent le flux d'informations dans le réseau depuis le modèle de langage jusqu'au coffre pliable en passant par le module structurel, et enfin les coordonnées 3D et la confiance de sortie.

Meta AI ouvre plus de 600 millions de cartes de structure de protéines métagénomiques et 15 milliards de modèles de langage ont été réalisés en deux semaines

Veuillez vous référer à l'article original pour plus de détails.

Lien du blog : https://ai.facebook.com/blog/protein-folding-esmfold-metagenomics/

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Comment déverrouiller tout dans Myrise

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7503

Tutoriel CakePHP

1377

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

Comment configurer le format de journal debian Apache Apr 12, 2025 pm 11:30 PM

Cet article décrit comment personnaliser le format de journal d'Apache sur les systèmes Debian. Les étapes suivantes vous guideront à travers le processus de configuration: Étape 1: Accédez au fichier de configuration Apache Le fichier de configuration apache principal du système Debian est généralement situé dans /etc/apache2/apache2.conf ou /etc/apache2/httpd.conf. Ouvrez le fichier de configuration avec les autorisations racinaires à l'aide de la commande suivante: sudonano / etc / apache2 / apache2.conf ou sudonano / etc / apache2 / httpd.conf Étape 2: définir les formats de journal personnalisés à trouver ou

Comment les journaux Tomcat aident à dépanner les fuites de mémoire Apr 12, 2025 pm 11:42 PM

Les journaux TomCat sont la clé pour diagnostiquer les problèmes de fuite de mémoire. En analysant les journaux TomCat, vous pouvez avoir un aperçu de l'utilisation de la mémoire et du comportement de collecte des ordures (GC), localiser et résoudre efficacement les fuites de mémoire. Voici comment dépanner les fuites de mémoire à l'aide des journaux Tomcat: 1. Analyse des journaux GC d'abord, activez d'abord la journalisation GC détaillée. Ajoutez les options JVM suivantes aux paramètres de démarrage TomCat: -xx: printgcdetails-xx: printgcdatestamps-xloggc: gc.log Ces paramètres généreront un journal GC détaillé (GC.Log), y compris des informations telles que le type GC, la taille et le temps des objets de recyclage. Analyse GC.Log

Comment implémenter le tri des fichiers par Debian Readdir Apr 13, 2025 am 09:06 AM

Dans Debian Systems, la fonction ReadDir est utilisée pour lire le contenu du répertoire, mais l'ordre dans lequel il revient n'est pas prédéfini. Pour trier les fichiers dans un répertoire, vous devez d'abord lire tous les fichiers, puis les trier à l'aide de la fonction QSORT. Le code suivant montre comment trier les fichiers de répertoire à l'aide de ReadDir et QSort dans Debian System: # include # include # include # include # include // Fonction de comparaison personnalisée, utilisée pour qsortintCompare (constvoid * a, constvoid * b) {returnstrcmp (* (

Comment optimiser les performances de Debian Readdir Apr 13, 2025 am 08:48 AM

Dans Debian Systems, les appels du système ReadDir sont utilisés pour lire le contenu des répertoires. Si ses performances ne sont pas bonnes, essayez la stratégie d'optimisation suivante: simplifiez le nombre de fichiers d'annuaire: divisez les grands répertoires en plusieurs petits répertoires autant que possible, en réduisant le nombre d'éléments traités par appel ReadDir. Activer la mise en cache de contenu du répertoire: construire un mécanisme de cache, mettre à jour le cache régulièrement ou lorsque le contenu du répertoire change et réduire les appels fréquents à Readdir. Les caches de mémoire (telles que Memcached ou Redis) ou les caches locales (telles que les fichiers ou les bases de données) peuvent être prises en compte. Adoptez une structure de données efficace: si vous implémentez vous-même la traversée du répertoire, sélectionnez des structures de données plus efficaces (telles que les tables de hachage au lieu de la recherche linéaire) pour stocker et accéder aux informations du répertoire

Comment configurer les règles de pare-feu pour Debian Syslog Apr 13, 2025 am 06:51 AM

Cet article décrit comment configurer les règles de pare-feu à l'aide d'iptables ou UFW dans Debian Systems et d'utiliser Syslog pour enregistrer les activités de pare-feu. Méthode 1: Utiliser iptableIpTable est un puissant outil de pare-feu de ligne de commande dans Debian System. Afficher les règles existantes: utilisez la commande suivante pour afficher les règles iptables actuelles: Sudoiptables-L-N-V permet un accès IP spécifique: Par exemple, permettez l'adresse IP 192.168.1.100 pour accéder au port 80: Sudoiptables-Ainput-PTCP - DPORT80-S192.16

Comment apprendre Debian Syslog Apr 13, 2025 am 11:51 AM

Ce guide vous guidera pour apprendre à utiliser Syslog dans Debian Systems. Syslog est un service clé dans les systèmes Linux pour les messages du système de journalisation et du journal d'application. Il aide les administrateurs à surveiller et à analyser l'activité du système pour identifier et résoudre rapidement les problèmes. 1. Connaissance de base de Syslog Les fonctions principales de Syslog comprennent: la collecte et la gestion des messages journaux de manière centralisée; Prise en charge de plusieurs formats de sortie de journal et des emplacements cibles (tels que les fichiers ou les réseaux); Fournir des fonctions de visualisation et de filtrage des journaux en temps réel. 2. Installer et configurer syslog (en utilisant RSYSLOG) Le système Debian utilise RSYSLOG par défaut. Vous pouvez l'installer avec la commande suivante: SudoaptupDatesud

Méthode d'installation du certificat de Debian Mail Server SSL Apr 13, 2025 am 11:39 AM

Les étapes pour installer un certificat SSL sur le serveur de messagerie Debian sont les suivantes: 1. Installez d'abord la boîte à outils OpenSSL, assurez-vous que la boîte à outils OpenSSL est déjà installée sur votre système. Si ce n'est pas installé, vous pouvez utiliser la commande suivante pour installer: Sudoapt-getUpDaSuDoapt-getInstallOpenSSL2. Générer la clé privée et la demande de certificat Suivant, utilisez OpenSSL pour générer une clé privée RSA 2048 bits et une demande de certificat (RSE): OpenSS

Où est le chemin de journal debian nginx Apr 12, 2025 pm 11:33 PM

Dans le système Debian, les emplacements de stockage par défaut du journal d'accès et du journal d'erreur de Nginx sont les suivants: Log d'accès (AccessLog): / var / log / nginx / access.log error log (errorLog): / var / log / nginx / error.log Le chemin ci-dessus est la configuration par défaut de l'installation standard de DebianNginx. Si vous avez modifié l'emplacement de stockage du fichier journal pendant le processus d'installation, veuillez vérifier votre fichier de configuration Nginx (généralement situé dans /etc/nginx/nginx.conf ou / etc / nginx / sites-louable / répertoire). Dans le fichier de configuration

See all articles