La glycosylation des protéines est une modification post-traductionnelle des protéines par des groupes sucre, qui joue un rôle important dans diverses fonctions physiologiques et pathologiques des cellules.
La glycoprotéomique est l'étude de la glycosylation des protéines au sein du protéome, en utilisant la chromatographie liquide couplée à la technologie de spectrométrie de masse tandem (MS/MS) pour obtenir des informations combinées sur les sites de glycosylation, les niveaux de glycosylation et les structures des sucres.
Cependant, les méthodes actuelles de recherche dans les bases de données pour la glycoprotéomique ont souvent des difficultés à déterminer les structures des glycanes en raison de l'apparition limitée d'ions déterminant la structure. Bien que les méthodes de recherche spectrale puissent exploiter l’intensité de la fragmentation pour faciliter l’identification structurelle des glycopeptides, les difficultés liées à la construction d’une bibliothèque spectrale entravent leur application.
Dans la dernière étude, des chercheurs de l'Université de Fudan ont proposé DeepGP, un cadre d'apprentissage profond hybride basé sur les réseaux neuronaux Transformer et graph, pour prédire les spectres MS/MS et les temps de rétention (RT) des glycopeptides.
Deux modules de réseau neuronal graphique sont utilisés pour capturer les structures de sucre ramifiées et prédire respectivement la force des ions sucre. De plus, une stratégie de pré-formation a été mise en œuvre pour pallier le manque de données glycoprotéomiques.
La recherche s'intitulait « La prédiction de l'apprentissage profond des spectres de masse en tandem des glycopeptides alimente la glycoprotéomique » et a été publiée dans « Nature Machine Intelligence » le 30 juillet 2024.
Les modifications post-traductionnelles protéiques (PTM) augmentent considérablement la complexité du protéome. En tant que PTM les plus importantes, la glycosylation affecte plus de 50 % des protéines des mammifères et joue un rôle clé dans de nombreux processus physiologiques et pathologiques.Au cours du processus de glycosylation, les molécules de sucre sont attachées aux chaînes latérales de résidus d'acides aminés spécifiques, ce qui entraîne une hétérogénéité structurelle, entraînant la diversité des isomères des glycopeptides et augmentant la difficulté d'identification.
La spectrométrie de masse en tandem par chromatographie liquide (LC-MS/MS) est la principale technique pour identifier les glycopeptides par ions fragments et poids moléculaire combinés avec la RT. Le rapport masse/charge (m/z) seul ne suffit pas à déterminer la structure du sucre, c'est pourquoi les scientifiques utilisent des méthodes d'appariement spectral pour améliorer la sensibilité d'identification. Cependant, la construction de bibliothèques spectrales de glycopeptides MS/MS est coûteuse et complexe.
Ces dernières années, l’apprentissage profond a fait des progrès dans la prédiction du spectre peptidique MS/MS. Cependant, le nombre relativement faible d’ensembles de données glycopeptidomiques actuels et le manque de protocoles standardisés pour générer des données de spectrométrie de masse des glycopeptides limitent la disponibilité de données appropriées pour la formation de modèles d’apprentissage en profondeur.
À cette fin, des chercheurs de l'Université de Fudan proposent DeepGP, un cadre hybride de bout en bout basé sur l'apprentissage profond pour les spectres MS/MS complets des N-glycopeptides et la prédiction RT. Le cadre d'apprentissage en profondeur se compose d'un module Transformer pré-entraîné et de deux modules de réseau neuronal graphique (GNN).
Illustration : architecture du modèle et prédiction spectrale des glycopeptides MS/MS. Le modèle DeepGP accepte les glycopeptides en entrée État de charge du précurseur
Stratégie de pré-entraînement pour pallier la pénurie de données glycoprotéomiques
Les chercheurs ont démontré la grande précision de DeepGP dans les prédictions MS/MS et RT à l’aide d’ensembles de données d’échantillons de souris et d’humains.
Illustration : DeepGP combiné avec pGlyco3 (une méthode de recherche de glycopeptides) pour l'identification des glycopeptides. (Source : article)Une analyse comparative complète de DeepGP sur des ensembles de données synthétiques et biologiques valide son efficacité à distinguer des glycanes similaires. DeepGP combiné aux recherches dans les bases de données améliore la sensibilité de la détection des glycopeptides.
Lien papier :
https://www.nature.com/articles/s42256-024-00875-x
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!