Le groupe de recherche de Da Hongliang de l'Université Jiao Tong de Shanghai et l'équipe du Shanghai AI Laboratory ont publié FSFP, une méthode de prédiction de petits échantillons pour la fonction des protéines basée sur un modèle de langage, qui a été publiée dans la sous-journal Nature.-IA-php.cn

Le groupe de recherche de Da Hongliang de l'Université Jiao Tong de Shanghai et l'équipe du Shanghai AI Laboratory ont publié FSFP, une méthode de prédiction de petits échantillons pour la fonction des protéines basée sur un modèle de langage, qui a été publiée dans la sous-journal Nature.

王林

Libérer： 2024-07-11 20:10:28

original

1092 Les gens l'ont consulté

Le groupe de recherche de Da Hongliang de lUniversité Jiao Tong de Shanghai et léquipe du Shanghai AI Laboratory ont publié FSFP, une méthode de prédiction de petits échantillons pour la fonction des protéines basée sur un modèle de langage, qui a été publiée dans la sous-journal Nature.

Éditeur | ScienceAI

Récemment, le groupe de recherche du professeur Hong Liang de l'Institut des sciences naturelles/École de physique et d'astronomie/Institut de recherche avancée de Zhangjiang/École de pharmacie de l'Université Jiao Tong de Shanghai et de jeunes chercheurs de le laboratoire d'intelligence artificielle de Shanghai a parlé de mutation protéique. Des avancées importantes ont été réalisées dans la prédiction des propriétés.

Ce travail adopte une nouvelle stratégie de formation, qui améliore considérablement les performances des grands modèles traditionnels de protéines pré-entraînés dans la prédiction des propriétés de mutation en utilisant très peu de données expérimentales humides.

Les résultats de la recherche étaient intitulés « Améliorer l'efficacité des modèles de langage protéique avec un minimum de données de laboratoire humide grâce à un apprentissage en quelques étapes » et ont été publiés dans « Nature Communications » le 2 juillet 2024.

Lien papier :

https://www.nature.com/articles/s41467-024-49798-6

Contexte de recherche

L'ingénierie enzymatique nécessite une mutation et un criblage de protéines pour obtenir un meilleur produit protéiné. Les méthodes traditionnelles d’expérimentation humide nécessitent des itérations expérimentales répétées, ce qui prend du temps et demande beaucoup de main d’œuvre.

Les méthodes d'apprentissage en profondeur peuvent accélérer la transformation des mutations protéiques, mais nécessitent une grande quantité de données sur les mutations protéiques pour entraîner le modèle. L’obtention de données de mutation de haute qualité est limitée par les expériences humides traditionnelles.

Il existe un besoin urgent d’une méthode capable de prédire avec précision la fonction de mutation des protéines sans grandes quantités de données expérimentales humides.

Méthode de recherche

Cette étude propose la méthode FSFP, qui combine le méta-apprentissage, l'apprentissage par classement et le réglage fin efficace des paramètres pour entraîner un modèle de pré-entraînement protéique en utilisant seulement des dizaines de données expérimentales humides, améliorant ainsi considérablement la mutation. -effet de prédiction de propriété.

Méthode FSFP :

Utilisez le modèle protéique pré-entraîné pour évaluer la similarité entre la protéine cible et la protéine dans ProteinGym.
Sélectionnez les deux ensembles de données ProteinGym les plus proches de la protéine cible comme tâches auxiliaires de méta-apprentissage.
Utilisez les données de notation GEMME des protéines cibles comme troisième tâche auxiliaire.
Utilisez la fonction de perte d'apprentissage par classement et la méthode d'entraînement Lora pour entraîner le modèle de pré-entraînement des protéines sur une petite quantité de données expérimentales humides.

Les résultats des tests montrent que même si la corrélation de prédiction originale est inférieure à 0,1, la méthode FSFP peut augmenter la corrélation au-dessus de 0,5 après avoir entraîné le modèle en utilisant seulement 20 données expérimentales humides.

Illustration : aperçu FSFP. (Source : article)

Résultats de la recherche
En même temps, afin d'étudier l'efficacité du FSFP. Nous avons mené une expérience humide dans un cas spécifique de modification de la protéine Phi29. FSFP a pu prédire les 20 principales mutations ponctuelles du modèle pré-entraîné de protéine d'origine ESM-1v lorsque seulement 20 données d'expériences humides ont été utilisées pour entraîner le modèle. Le taux de positivité a augmenté de 25 % et près de 10 nouvelles mutations ponctuelles positives ont pu être trouvées.

Illustration : Ingénierie Phi29 à l'aide de FSFP. (Source : Article)

Résumé

Dans ce travail, l'auteur a proposé une nouvelle méthode d'entraînement de réglage fin FSFP basée sur le modèle de pré-entraînement des protéines.

FSFP utilise de manière exhaustive le méta-apprentissage, l'apprentissage par classement et une technologie efficace de réglage fin des paramètres pour entraîner efficacement un modèle de pré-entraînement de protéines en utilisant seulement 20 données d'expériences humides aléatoires, et peut considérablement améliorer le taux de positivité de la prédiction de mutation en un seul point du modèle. .

Les résultats ci-dessus montrent que la méthode FSFP revêt une grande importance pour résoudre le cycle expérimental élevé et réduire les coûts expérimentaux dans l’ingénierie actuelle des protéines.

Informations sur l'auteur

Le professeur Hong Liang de l'Académie des sciences naturelles/École de physique et d'astronomie/Institut d'études avancées de Zhangjiang, et Tan Peng, un jeune chercheur du Laboratoire d'intelligence artificielle de Shanghai, sont les auteurs correspondants.

Le boursier postdoctoral Zhou Ziyi de l'École de physique et d'astronomie de l'Université Jiao Tong de Shanghai, l'étudiant en maîtrise Zhang Liang, le doctorant Yu Yuanxi et le doctorant Wu Banghao de l'École des sciences et technologies de la vie sont les co-premiers auteurs.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!