Maison > Périphériques technologiques > IA > 'Connaissances préalables en IA et en physique', méthode générale de notation des interactions protéine-ligand de l'Université du Zhejiang et de l'Académie chinoise des sciences, publiée dans la sous-journal Nature

'Connaissances préalables en IA et en physique', méthode générale de notation des interactions protéine-ligand de l'Université du Zhejiang et de l'Académie chinoise des sciences, publiée dans la sous-journal Nature

WBOY
Libérer: 2024-06-14 11:40:36
original
1036 Les gens l'ont consulté

Connaissances préalables en IA et en physique, méthode générale de notation des interactions protéine-ligand de lUniversité du Zhejiang et de lAcadémie chinoise des sciences, publiée dans la sous-journal Nature

Éditeur | Les scientifiques recherchent des moyens efficaces de prédire l’adéquation entre ces « clés » et ces « verrous », ou interactions protéine-ligand.

Cependant, les méthodes traditionnelles basées sur les données tombent souvent dans un « apprentissage par cœur », mémorisant les données d'entraînement des ligands et des protéines au lieu de véritablement apprendre les interactions entre eux.

Récemment, une équipe de recherche de l'Université du Zhejiang et de l'Académie chinoise des sciences a proposé une nouvelle méthode de notation appelée EquiScore, qui utilise des réseaux neuronaux de graphes hétérogènes pour intégrer les connaissances physiques préalables et caractériser les interactions protéine-ligand dans l'espace de transformation des équations.

EquiScore est formé sur un nouvel ensemble de données construit à l'aide de plusieurs stratégies d'augmentation des données et d'un schéma rigoureux d'élimination des redondances.

Sur deux grands ensembles de tests externes, EquiScore a commencé à s'imposer par rapport à 21 autres méthodes. Lorsqu'EquiScore est utilisé avec différentes méthodes d'accueil, il peut améliorer efficacement les capacités de filtrage de ces méthodes d'accueil. EquiScore a également bien performé dans la tâche de classement de l'activité d'une série de substances structurellement similaires, démontrant ainsi son potentiel pour guider l'optimisation des composés principaux.

Enfin, différents niveaux d'interprétabilité d'EquiScore ont été étudiés, ce qui pourrait fournir davantage d'informations sur la conception de médicaments basés sur la structure.

L'étude s'intitulait « 

Générique de notation des interactions protéine-ligand en intégrant les connaissances physiques préalables et la modélisation de l'augmentation des données

 » et a été publiée dans « Nature Machine Intelligence » le 6 juin 2024.

Connaissances préalables en IA et en physique, méthode générale de notation des interactions protéine-ligand de lUniversité du Zhejiang et de lAcadémie chinoise des sciences, publiée dans la sous-journal NatureLien papier :

https://www.nature.com/articles/s42256-024-00849-z
Méthode de notation basée sur l'apprentissage automatique

Après le Projet Génome Humain, la génomique vient aussi le défi de traduire les nouvelles connaissances en nouveaux médicaments. Ces dernières années, les algorithmes de repliement des protéines ont continué à faire des percées et le domaine de la biologie structurale a fait de grands progrès. Et un projet ambitieux tente de trouver des médicaments ou des sondes adaptés à toutes les protéines du corps humain. Bien que des progrès substantiels aient été réalisés dans ce domaine, le développement de méthodes de notation plus précises dans des scénarios d’application réels reste un défi à relever.

Avec l’explosion des données expérimentales sur les interactions protéine-ligand, les méthodes de notation basées sur l’apprentissage automatique ont fait des progrès substantiels.

La capacité croissante des modèles d'apprentissage automatique leur permet de mémoriser l'intégralité de l'ensemble des données d'entraînement. Dans le même temps, les problèmes de fuite de données entre les données d'entraînement et les données de test conduisent à des évaluations trop optimistes des capacités de ces modèles.

En plus de la qualité de l'ensemble de données, un autre facteur clé affectant les performances des méthodes de notation basées sur l'apprentissage automatique. est l’intégration efficace d’informations physiques préalables pertinentes sur les interactions ligand-protéine.

Architecture d'EquiScore

Cette recherche améliore principalement la capacité de généralisation des méthodes de notation d'apprentissage profond pour des cibles inconnues sous deux aspects.

Tout d’abord, les chercheurs ont construit un nouvel ensemble de données appelé PDBscreen en utilisant plusieurs stratégies d’augmentation des données. Par exemple, en utilisant des poses de liaison de ligands proches du natif pour amplifier la taille des échantillons positifs, et en utilisant des leurres hautement trompeurs générés pour amplifier la taille des échantillons négatifs.

Deuxièmement, en introduisant de nouveaux types de nœuds et d'arêtes et un mécanisme d'attention conscient de l'information, un graphe hétérogène capable d'intégrer des informations préalables sur les interactions intermoléculaires physiques est proposé.

Connaissances préalables en IA et en physique, méthode générale de notation des interactions protéine-ligand de lUniversité du Zhejiang et de lAcadémie chinoise des sciences, publiée dans la sous-journal NatureIllustration : Pipeline pour la création d'un ensemble de données PDBscreen. (Source : article)

EquiScore est un modèle de classification binaire qui évalue le potentiel de liaison entre les protéines et les ligands en saisissant une carte isomorphe construite à partir de régions de poches protéiques et de ligands.

Connaissances préalables en IA et en physique, méthode générale de notation des interactions protéine-ligand de lUniversité du Zhejiang et de lAcadémie chinoise des sciences, publiée dans la sous-journal Nature
Connaissances préalables en IA et en physique, méthode générale de notation des interactions protéine-ligand de lUniversité du Zhejiang et de lAcadémie chinoise des sciences, publiée dans la sous-journal NatureIllustration : Architecture globale d'EquiScore.
Dans un premier temps, les chercheurs ont conçu un schéma de construction de graphes hétérogènes. En plus d'abstraire les atomes existants en nœuds, un nœud virtuel est ajouté pour chaque cycle aromatique sur la base des connaissances préalables d'experts afin de mieux représenter le système aromatique. Pour construire des arêtes, des arêtes géométriques basées sur la distance (
E

geometric) et des arêtes basées sur la structure via des liaisons chimiques (Estructural) sont établies entre les nœuds.

Les chercheurs ont également ajouté une classe d'arêtes basées sur les composants d'interaction protéine-ligand (IFP) empiriques calculés par ProLIF à Estructural pour inclure des connaissances physiques a priori sur les interactions intermoléculaires. Dans la deuxième étape, une couche d'intégration est utilisée pour obtenir une représentation latente de chaque type d'arêtes et de nœuds sur le graphe hétérogène. Ce schéma peut introduire d’autres nouveaux nœuds et arêtes ayant une signification physique claire, et peut être intégré de manière transparente aux modules d’apprentissage de représentation ultérieurs.

Afin d'utiliser pleinement le biais inductif des informations provenant de différents nœuds et bords tout en garantissant une variance égale du modèle, la couche EquiScore se compose de trois sous-modules : le module d'attention consciente des informations, le module de mise à jour des nœuds et le module de mise à jour des bords.

Le module d'attention consciente des informations peut interpréter les interactions à partir de différentes informations, notamment (1) des informations géométriques équivariantes, (2) des informations sur la structure chimique et (3) des composants d'interaction empiriques protéine-ligand.

Évaluation des performances du modèle

Les chercheurs ont évalué les performances du modèle EquiScore généré.

Dans le scénario de criblage virtuel (VS), EquiScore a systématiquement atteint les meilleurs classements par rapport à 21 méthodes de notation existantes pour les protéines invisibles sur deux ensembles de données externes, DEKOIS2.0 et DUD-E.

Connaissances préalables en IA et en physique, méthode générale de notation des interactions protéine-ligand de lUniversité du Zhejiang et de lAcadémie chinoise des sciences, publiée dans la sous-journal Nature

Illustration : Évaluation de 22 méthodes de notation sur DEKOIS2.0. (Source : article)

Connaissances préalables en IA et en physique, méthode générale de notation des interactions protéine-ligand de lUniversité du Zhejiang et de lAcadémie chinoise des sciences, publiée dans la sous-journal Nature

Illustration : Évaluation de 22 méthodes de notation DUD-E en termes d'AUROC, BEDROC et EF. (Source : article)

Dans le scénario d'optimisation des leads, EquiScore n'a montré qu'une capacité de classement inférieure à celle de FEP+ parmi huit méthodes différentes. Considérant que les calculs FEP+ nécessitent des coûts de calcul nettement plus élevés, EquiScore démontre un avantage plus équilibré entre vitesse et précision.

Connaissances préalables en IA et en physique, méthode générale de notation des interactions protéine-ligand de lUniversité du Zhejiang et de lAcadémie chinoise des sciences, publiée dans la sous-journal Nature

Illustration : Comparaison des performances des poses d'amarrage de ré-évaluation EquiScore générées par différentes méthodes d'amarrage sur DEKOIS2.0. (Source : article)

De plus, il a été constaté qu'EquiScore présente de fortes capacités de re-notation lorsqu'il est appliqué à des poses générées par différentes méthodes d'accueil, et que l'utilisation de la re-notation EquiScore peut améliorer les performances du VS pour toutes les méthodes d'évaluation.

Connaissances préalables en IA et en physique, méthode générale de notation des interactions protéine-ligand de lUniversité du Zhejiang et de lAcadémie chinoise des sciences, publiée dans la sous-journal Nature

Illustration : Expliquer EquiScore en visualisant la répartition de l'attention. (Source : article)

Enfin, les chercheurs ont analysé l'interprétabilité du modèle et ont découvert que le modèle pouvait capturer des interactions intermoléculaires clés, prouvant la rationalité du modèle et fournissant des indices utiles pour la conception rationnelle de médicaments.

Des prédictions robustes des interactions protéine-ligand offriront des opportunités précieuses pour comprendre la biologie des protéines et déterminer leur impact sur les futures thérapies médicamenteuses. EquiScore contribuera à une meilleure compréhension de la santé humaine et des maladies et facilitera la découverte de nouveaux médicaments.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:jiqizhixin.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal