Éditeur | Peau de radis
Les protéines sont un outil bien établi dans la lutte du corps contre les agents pathogènes et sont utilisées pour affiner les traitements potentiels à des fins de tests expérimentaux. Une structure protéique de haute qualité est requise et les protéines sont souvent considérées comme totalement ou partiellement rigides.
Ici, des chercheurs de la Freie Universität Berlin ont développé un système d'intelligence artificielle capable de prédire les structures entièrement flexibles de tous les atomes des complexes protéine-ligand directement à partir des informations de séquence.
Bien que les méthodes d'amarrage classiques soient toujours supérieures, cela dépend également de la structure cristalline de la protéine cible. En plus de prédire les structures flexibles de tous les atomes, la métrique de confiance de prédiction (plDDT) peut être utilisée pour sélectionner des prédictions précises et différencier les liants forts et faibles.
L'étude s'intitulait « Prédiction de la structure des complexes protéine-ligand à partir d'informations de séquence avec Umol » et a été publiée dans « Nature Communications » le 28 mai 2024.
Le contact protéine-protéine cible est un enjeu important dans l’évaluation de nouveaux médicaments et le repositionnement de substances connues. Les méthodes de contact existantes ont des limites : elles nécessitent des structures protéiques de haute qualité ; il est difficile de déterminer des postures de contact précises ; elles sont principalement basées sur l’évaluation de la capacité de liaison (affinité), qui est difficile à refléter d’autres facteurs tels que la stabilité structurelle. Cependant, les méthodes de contact existantes sont limitées par la nécessité de structures protéiques de haute qualité, de poses de contact précises et d’une évaluation d’affinité multi-basée. Par conséquent, l’exploration de nouveaux ligands est limitée par une approche combinée d’assemblage de protéines et d’évaluation de la structure.
Bien que le machine learning ait été appliqué dans ce domaine, ses performances sur des zones cibles connues n'ont toujours pas dépassé la méthode classique basée sur des fonctions de scoring. De plus, la structure protéique prévue n’est souvent pas adaptée à une utilisation directe dans l’amarrage de ligands.
De plus, si les structures de l'ensemble d'évaluation sont divisées en fonction du temps de sortie plutôt que de la similarité, un biais sera introduit, notamment face à des structures réceptrices non vues à l'entraînement, la performance sera réduite de moitié.
La flexibilité des protéines est cruciale pour atteindre l'état de liaison et un amarrage réussi. Bien que RoseTTAFold All-Atom puisse se lier à des ligands lors de la prédiction des protéines, son taux de réussite sur l'ensemble de tests PoseBusters n'est que de 42 %, et c'est très difficile pour les protéines invisibles. le comportement des protéines est inconnu, ce qui indique que le défi de la prédiction de la structure du complexe protéine-ligand n'a pas encore été entièrement résolu.
Une équipe de la Freie Universität Berlin a développé une méthode d'IA capable de prédire la structure des complexes protéine-ligand sur la base des informations de séquence en étendant EvoFormer dans AlphaFold2. Ce réseau est similaire au RFAA, sauf que les trajectoires 3D ne sont pas incluses et que les structures modèles ou les données supplémentaires de ligand cristallographique sont utilisées en entrée ou pendant la formation.
Illustration : aperçu d'Umol. (Source : article)
À partir d'une séquence protéique, de cibles protéiques alternatives (poches) et de ligands, SMILES crée des alignements de séquences multiples (MSA) et des matrices de liaison. À partir de là, des entités sont générées au sein du réseau et des structures 3D sont générées. Puisqu’aucune information structurelle n’est requise pour générer la structure finale du complexe protéine-ligand, il n’y a aucune restriction sur la flexibilité de la protéine ou du ligand.
Umol a atteint un taux de réussite plus élevé (SR, ligand RMSD ≤ 2 Å) en incluant des informations de poche sur l'ensemble de tests PoseBusters, 45 %, 42 %, respectivement, par rapport aux plus proches RoseTTAFold All-Atom et NeuralPlexer1, 24 %, ce qui fait c'est la méthode la plus performante en matière de prédiction de la structure protéine-ligand.
Illustration : Précision de la prédiction. (Source : article)
Lors de la suppression des informations de poche d'Umol et des informations de modèle de RFAA, le SR tombe à 18 % et 8 % respectivement. Lors de l'utilisation de DiffDock avec la prédiction AF, la précision est de 21 % mais dépend d'une prédiction d'interface très précise (RMSD de poche
De nombreux ligands posés juste au-dessus du seuil de réussite de 2 Å peuvent être comparables, ce qui suggère qu'un système de notation plus flexible pourrait être nécessaire. Le taux de réussite d'Umol dépasse AutoDock Vina au seuil de 2,35 Å. Même de petites erreurs d’alignement peuvent devenir problématiques lorsque les structures protéiques natives ne sont pas utilisées pour la notation.
Les complexes protéine-ligand cofoldés ont le potentiel d’accélérer le repositionnement des médicaments. En particulier, les chercheurs ont découvert que le lDDT prédit du ligand (plDDT) peut être utilisé pour sélectionner des poses d'amarrage précises, tandis que le pIDDT de la poche protéique convient pour sélectionner des interfaces précises.
Illustration : Mesures de confiance et précision. (Source : article)
Le ligand plDDT sépare également les ligands de haute affinité des ligands de faible affinité, ce qui suggère que certaines des prédictions d'Umol et d'incertitude de poche Umol peuvent être des liants faibles. Cela démontre en outre les capacités d’Umol et souligne que des aspects importants des interactions protéine-ligand semblent être compris.
Illustration : prédiction BindingDB. (Source : papier)
Malgré la précision de 18 % sans informations de poche, le réseau peut encore dans une certaine mesure faire la différence entre les classeurs forts et faibles. Ceci est particulièrement utile pour annoter des complexes inconnus, et l’équipe a présenté 336 structures protéine-ligand avec une très grande confiance (ligand plDDT> 85). Il est important de noter que même si ces structures semblent raisonnables et que leurs scores L-plDDT sont élevés, elles doivent encore être vérifiées expérimentalement.
Illustration : Utilisation d'Umol-pocket pour analyser la relation entre les différentes caractéristiques prédites et le ligand RMSD (LRMSD) sur l'ensemble de tests PoseBusters (n = 428). (Source : Article)
Les chercheurs n’ont pas trouvé de relation claire entre les performances prédictives du modèle et « différentes caractéristiques associées à la même protéine ou au même ligand ».
Illustration : Les 5 structures les plus difficiles. (Source : article)
Cependant, Umol-pocket était précis dans 3 cas sur 5 où les autres méthodes étaient difficiles à prédire. En inversant le réseau formé, de nouvelles protéines de liaison au ligand ou de nouveaux ligands de liaison aux protéines peuvent être conçues. Une autre option consiste à utiliser l’apprentissage par transfert pour créer un modèle de diffusion générative dans le même but. Dans ce cas, le ligand ou la protéine plDDT peut être maximisé pour tenter de créer un liant de haute affinité.
La version actuelle de PDBbind contient des données traitées à partir du PDB en 2019. Depuis lors, d’autres complexes protéine-ligand ont été soumis, ce qui suggère qu’une plus grande précision pourrait être obtenue.
Cependant, on ne sait actuellement pas quelle précision est requise pour obtenir des résultats significatifs d’amarrage protéine-ligand. La grande précision de la prédiction de la structure des protéines n’est pas réalisable dans des tâches impliquant d’autres molécules, telles que les petites molécules ou l’ARN.
Sans informations co-évolutives sur les protéines, la précision des prédictions de structure diminue rapidement. Puisqu’il n’existe pas de sources d’informations similaires pour les petites molécules ou l’ARN, il faut s’appuyer sur des représentations atomiques.
Tableau : taux de réussite (pourcentage de ligands avec RMSD ≤ 2Å) sur l'ensemble de référence PoseBuster divisé par identité de séquence (seqid) pour la version PDBBind 2020. (Source : article)
Les chercheurs pensent que les informations de poche sont très efficaces. Sans informations de poche, les méthodes d'apprentissage en profondeur semblent sujettes au surapprentissage. Cette découverte corrobore en outre l'observation selon laquelle, bien que de nombreuses molécules de l'ensemble de tests PoseBusters contiennent des analogues très similaires dans l'ensemble de données d'entraînement, cette similarité n'est pas en corrélation avec le succès du modèle.
Illustration : Quelques tests. (Source : article)
Le même degré de surajustement n'est pas observé pour les méthodes d'amarrage basées sur la structure telles que Vina ou Gold. Ceci est attendu puisqu’ils sont basés sur des fonctions de notation atomique et ne reposent donc pas dans la même mesure sur l’homologie protéique.
La méthode d'apprentissage en profondeur a des performances nettement supérieures sur l'ensemble d'entraînement, ce qui indique que l'homologie protéique joue un rôle important dans l'amarrage protéine-ligand. Les performances de RFAA sur l'ensemble de test sont supérieures à celles sur l'ensemble de formation, ce qui indique une possible fuite de données entre les ensembles de formation et de test.
En conclusion, il reste encore un long chemin à parcourir pour comprendre pleinement la complexité des interactions protéine-ligand, mais l'utilisation de l'apprentissage profond pour prédire la structure de l'ensemble du complexe pourrait rapprocher les scientifiques d'une solution.
Umol : https://github.com/patrickbryant1/Umol
Lien papier : https://www.nature.com/articles/s41467-024-48837-6
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!