Herausgeber |. Trockenblattschmetterling
Groß angelegte Sprachmodelle haben die Fähigkeit von Wissenschaftlern, Biologie und Chemie zu verstehen, erheblich verbessert, aber zuverlässige Methoden für die strukturbasierte Wirkstoffentdeckung, Quantenchemie und Strukturbiologie sind noch rar. Für große Sprachmodelle werden dringend genaue Datensätze zur Biomolekül-Ligand-Interaktion benötigt.
Um dieses Problem zu lösen, haben Forscher des Instituts für Biologie des Helmholtz-Forschungszentrums München und der Technischen Universität München MISATO vorgeschlagen. Hierbei handelt es sich um einen Datensatz, der quantenmechanische (QM) Eigenschaften kleiner Moleküle mit zugehörigen Molekulardynamik (MD)-Simulationen von etwa 20.000 experimentellen Protein-Ligand-Komplexen und einer umfassenden Validierung experimenteller Daten kombiniert.
Ausgehend von bestehenden experimentellen Strukturen verbesserten Forscher diese Strukturen systematisch mithilfe semiempirischer Quantenmechanik. Dazu gehören Molekulardynamiksimulationen einer großen Anzahl von Protein-Ligand-Komplexen in reinem Wasser mit Akkumulationszeiten von mehr als 170 Mikrosekunden.
Das Team stellt ein Beispiel für ein Basismodell für maschinelles Lernen (ML) bereit, das durch die Verwendung dieses Datensatzes eine verbesserte Genauigkeit demonstriert. Bietet Experten für maschinelles Lernen einen einfachen Einstiegspunkt zur Implementierung von Modellen der nächsten Generation künstlicher Intelligenz für die Arzneimittelforschung.
Die Studie trug den Titel „MISATO: Machine Learning Dataset of Protein-Ligand Complexes for Structure-Based Drug Discovery“ und wurde am 10. Mai 2024 in „Nature Computational Science“ veröffentlicht.
In den letzten Jahren hat die KI-Vorhersagetechnologie eine Revolution im wissenschaftlichen Bereich ausgelöst. Beispielsweise kann AlphaFold die Proteinstruktur genau vorhersagen. Obwohl die strukturgesteuerte Wirkstoffentwicklung weiterhin eine große Herausforderung darstellt, ist die Anwendung von KI in diesem Bereich noch gering. Aktuelle Methoden stehen vor Herausforderungen wie Genauigkeit, Rechenaufwand und experimenteller Abhängigkeit und konzentrieren sich meist auf einfache Lösungen und eindimensionale Datenverarbeitung. Die Komplexität dreidimensionaler Protein-Ligand-Komplexe wurde übersehen.
Obwohl es eine Vielzahl von Datenbanken gibt, konnte aufgrund der begrenzten Datenmenge und des Mangels an thermodynamischen Informationen kein KI-Modell nachgewiesen werden, das die Arzneimittelforschung voranbringt. Im Gegensatz zu den Errungenschaften von AlphaFold auf dem Gebiet der Proteinstrukturvorhersage ist das KI-Modell auch dadurch eingeschränkt, dass es Probleme wie Dynamik und chemische Komplexität ignoriert, was sich auf sein Potenzial in der Biomolekülanalyse und Quantenchemie auswirkt.
Hier schlugen Forscher des Instituts für Strukturbiologie des Helmholtz-Forschungszentrums München und der Technischen Universität München eine Protein-Ligand-Strukturdatenbank vor, die auf experimentellen Protein-Ligand-Strukturen basiert, MISATO (Molecular Interactions Are Structurally Optimized).
Forscher haben gezeigt, dass die Datenbank dabei helfen kann, Modelle in Bereichen rund um die Arzneimittelforschung und darüber hinaus besser zu trainieren. Dazu gehören Quantenchemie, allgemeine Strukturbiologie und Bioinformatik.
Das Team bietet quantenchemiebasiertes Strukturmanagement und -verfeinerung, einschließlich der Regularisierung von Ligandengeometrien. Die Forscher ergänzten diese Datenbank mit fehlenden dynamischen und chemischen Informationen, einschließlich MD auf Zeitskalen, und ermöglichten so die Erkennung vorübergehender und mysteriöser Zustände bestimmter Systeme. Letzteres ist für ein erfolgreiches Arzneimitteldesign sehr wichtig.
Daher ergänzten die Forscher die experimentellen Daten mit der maximalen Anzahl physikalischer Parameter. Dies entlastet das KI-Modell von der Last, all diese Informationen implizit zu lernen, und kann sich auf die Hauptlernaufgabe konzentrieren. Die MISATO-Datenbank bietet ein benutzerfreundliches Format, das direkt in Code für maschinelles Lernen importiert werden kann.
Das Team stellt außerdem verschiedene Vorverarbeitungsskripte zur Verfügung, um den Datensatz zu filtern und zu visualisieren. Darüber hinaus werden beispielhafte KI-Basismodelle zur Berechnung quantenchemischer Eigenschaften (chemische Härte und Elektronenaffinität), zur Berechnung der Bindungsaffinität und zur Vorhersage von Proteinflexibilität oder induzierten Anpassungseigenschaften bereitgestellt, wodurch die Daten vereinfacht werden können. Darüber hinaus wurden QM-, MD- und KI-Modelle umfassend anhand experimenteller Daten validiert.
Die Forscher hoffen, MISATO in ein nützliches Gemeinschaftsprojekt umzuwandeln, das dem gesamten Bereich der Arzneimittelforschung zugute kommt.
Link zum Papier:https://www.nature.com/articles/s43588-024-00627-2
Das obige ist der detaillierte Inhalt vonDurch die Kombination von Quantenmerkmalen und 20.000 Molekulardynamiksimulationen wurde im Nature-Unterjournal ein neuer Protein-Ligand-Komplex-ML-Datensatz veröffentlicht. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!