Die Forschungsgruppe von Da Hongliang an der Shanghai Jiao Tong University und das Team des Shanghai AI Laboratory veröffentlichten FSFP, eine auf einem Sprachmodell basierende Methode zur Vorhersage kleiner Stichproben für die Proteinfunktion, die in der Unterzeitschrift „Nature' veröffentlicht wurde-KI-php.cn

Die Forschungsgruppe von Da Hongliang an der Shanghai Jiao Tong University und das Team des Shanghai AI Laboratory veröffentlichten FSFP, eine auf einem Sprachmodell basierende Methode zur Vorhersage kleiner Stichproben für die Proteinfunktion, die in der Unterzeitschrift „Nature' veröffentlicht wurde

王林

Freigeben： 2024-07-11 20:10:28

Original

1092 Leute haben es durchsucht

Herausgeber |. ScienceAI

Kürzlich hat die Forschungsgruppe von Professor Hong Liang vom Institut für Naturwissenschaften/Schule für Physik und Astronomie/Zhangjiang Institute of Advanced Research/School of Pharmacy der Shanghai Jiao Tong University und jungen Forschern von Das Shanghai Artificial Intelligence Laboratory sprach über Proteinmutationen – Wichtige Durchbrüche wurden bei der Vorhersage von Eigenschaften erzielt.

Diese Arbeit übernimmt eine neue Trainingsstrategie, die die Leistung traditioneller, vorab trainierter Protein-Großmodelle bei der Vorhersage von Mutationseigenschaften unter Verwendung sehr weniger nasser experimenteller Daten erheblich verbessert.

Die Forschungsergebnisse trugen den Titel „Verbesserung der Effizienz von Protein-Sprachmodellen mit minimalen Wet-Lab-Daten durch Few-Shot-Learning“ und wurden am 2. Juli 2024 in „Nature Communications“ veröffentlicht.

Link zum Papier:

https://www.nature.com/articles/s41467-024-49798-6

Forschungshintergrund

Enzym-Engineering erfordert Mutation und Screening von Proteinen, um eine zu erhalten besseres Proteinprodukt. Herkömmliche Nassexperimentmethoden erfordern wiederholte experimentelle Iterationen, was zeitaufwändig und arbeitsintensiv ist.

Deep-Learning-Methoden können die Transformation von Proteinmutationen beschleunigen, erfordern jedoch eine große Menge an Proteinmutationsdaten, um das Modell zu trainieren. Die Gewinnung qualitativ hochwertiger Mutationsdaten ist durch herkömmliche Nassexperimente eingeschränkt.

Es besteht ein dringender Bedarf an einer Methode, die die Proteinmutationsfunktion ohne große Mengen nasser experimenteller Daten genau vorhersagen kann.

Forschungsmethode

Diese Studie schlägt die FSFP-Methode vor, die Meta-Lernen, Ranking-Lernen und effiziente Feinabstimmung von Parametern kombiniert, um ein Protein-Pre-Training-Modell mit nur Dutzenden nassen experimentellen Daten zu trainieren und so die Mutation erheblich zu verbessern -Eigenschaftsvorhersageeffekt.

FSFP-Methode:

Verwenden Sie das vorab trainierte Proteinmodell, um die Ähnlichkeit zwischen dem Zielprotein und dem Protein in ProteinGym zu bewerten.
Wählen Sie die beiden ProteinGym-Datensätze, die dem Zielprotein am nächsten kommen, als Meta-Lernhilfsaufgaben aus.
Verwenden Sie die Bewertungsdaten von GEMME zu Zielproteinen als dritte Hilfsaufgabe.
Verwenden Sie die Ranking-Lernverlustfunktion und die Lora-Trainingsmethode, um das Protein-Pre-Training-Modell anhand einer kleinen Menge nasser experimenteller Daten zu trainieren.

Testergebnisse zeigen, dass selbst wenn die ursprüngliche Vorhersagekorrelation unter 0,1 liegt, die FSFP-Methode die Korrelation auf über 0,5 erhöhen kann, nachdem das Modell mit nur 20 nassen experimentellen Daten trainiert wurde.

Abbildung: FSFP-Übersicht. (Quelle: Papier)

Forschungsergebnisse
Gleichzeitig, um die Wirksamkeit von FSFP zu untersuchen. Wir führten ein Nassexperiment in einem speziellen Fall der Protein-Phi29-Modifikation durch. FSFP konnte die Top-20-Einzelpunktmutationen des ursprünglichen, vorab trainierten Proteinmodells ESM-1v vorhersagen, als nur 20 Nassexperimentdaten zum Trainieren des Modells verwendet wurden. Die Positivitätsrate stieg um 25 %, und es konnten fast 10 neue positive Einzelpunktmutationen gefunden werden.

Abbildung: Entwicklung von Phi29 mit FSFP. (Quelle: Papier)

Zusammenfassung

In dieser Arbeit schlug der Autor eine neue Feinabstimmungs-Trainingsmethode FSFP vor, die auf dem Protein-Pre-Training-Modell basiert.

FSFP nutzt umfassend Meta-Lernen, Ranking-Lernen und effiziente Parameter-Feinabstimmungstechnologie, um ein Protein-Pre-Training-Modell mithilfe von nur 20 zufälligen Nassexperimentdaten effizient zu trainieren, und kann die Positivitätsrate der Einzelpunktmutationsvorhersage des Modells erheblich verbessern .

Die obigen Ergebnisse zeigen, dass die FSFP-Methode von großer Bedeutung für die Lösung des hohen experimentellen Zyklus und die Reduzierung der experimentellen Kosten im aktuellen Protein-Engineering ist.

Autoreninformationen

Professor Hong Liang von der Akademie der Naturwissenschaften/Schule für Physik und Astronomie/Zhangjiang Institute for Advanced Study und Tan Peng, ein junger Forscher am Shanghai Artificial Intelligence Laboratory, sind die korrespondierenden Autoren.

Postdoktorand Zhou Ziyi von der School of Physics and Astronomy der Shanghai Jiao Tong University, Masterstudent Zhang Liang, Doktorand Yu Yuanxi und Doktorand Wu Banghao von der School of Life Science and Technology sind die Co-Erstautoren.

Das obige ist der detaillierte Inhalt vonDie Forschungsgruppe von Da Hongliang an der Shanghai Jiao Tong University und das Team des Shanghai AI Laboratory veröffentlichten FSFP, eine auf einem Sprachmodell basierende Methode zur Vorhersage kleiner Stichproben für die Proteinfunktion, die in der Unterzeitschrift „Nature' veröffentlicht wurde. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!